Prateek Mittal

8

Papers

463

Total Citations

Papers (8)

Safety Alignment Should be Made More Than Just a Few Tokens Deep

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

Data Shapley in One Training Run

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications

Adapting to Evolving Adversaries with Regularized Continual Robust Training

A New Linear Scaling Rule for Private Adaptive Hyperparameter Optimization

PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches