Prateek Mittal

19

Papers

463

Total Citations

Papers (19)

Safety Alignment Should be Made More Than Just a Few Tokens Deep

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

Data Shapley in One Training Run

ReliabilityRAG: Effective and Provably Robust Defense for RAG-based Web-Search

Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank Modifications

A New Linear Scaling Rule for Private Adaptive Hyperparameter Optimization

Adapting to Evolving Adversaries with Regularized Continual Robust Training

PatchDEMUX: A Certifiably Robust Framework for Multi-label Classifiers Against Adversarial Patches

Differentially Private Image Classification by Learning Priors from Random Processes

Characterizing the Optimal $0-1$ Loss for Multi-class Classification with a Test-time Attacker

A Privacy-Friendly Approach to Data Valuation

Analyzing Federated Learning through an Adversarial Lens

PAC-learning in the presence of adversaries

Lower Bounds on Adversarial Robustness from Optimal Transport

HYDRA: Pruning Adversarially Robust Neural Networks

Formulating Robustness Against Unforeseen Attacks

Understanding Robust Learning through the Lens of Representation Similarities

Renyi Differential Privacy of Propose-Test-Release and Applications to Private and Robust Machine Learning

A Randomized Approach to Tight Privacy Accounting