Kaixuan Huang

3

Papers

156

Total Citations

Papers (3)

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

Emergent Symbolic Mechanisms Support Abstract Reasoning in Large Language Models

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications