Long Phan

4

Papers

139

Total Citations

Papers (4)

Tamper-Resistant Safeguards for Open-Weight LLMs

Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs

HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset