Ethan Perez

4

Papers

335

Total Citations

Papers (4)

Inverse Scaling: When Bigger Isn't Better

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Failures to Find Transferable Image Jailbreaks Between Vision-Language Models

Debating with More Persuasive LLMs Leads to More Truthful Answers