Nicholas Carlini

8

Papers

80

Total Citations

Papers (8)

Adversarial Perturbations Cannot Reliably Protect Artists From Generative AI

Persistent Pre-training Poisoning of LLMs

AutoAdvExBench: Benchmarking Autonomous Exploitation of Adversarial Example Defenses

Position: In-House Evaluation Is Not Enough. Towards Robust Third-Party Evaluation and Flaw Disclosure for General-Purpose AI

IF-Guide: Influence Function-Guided Detoxification of LLMs

Initialization Matters for Adversarial Transfer Learning

Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining

Stealing part of a production language model