Mengzhou Xia

6

Papers

486

Total Citations

Papers (6)

Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation

The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

NeurIPS 2025arXiv

Trainable Transformer in Transformer

LESS: Selecting Influential Data for Targeted Instruction Tuning

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications

Language Models as Science Tutors