Sanmi Koyejo

4

Papers

55

Total Citations

Papers (4)

Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

Failures to Find Transferable Image Jailbreaks Between Vision-Language Models

Implicit Regularization in Feedback Alignment Learning Mechanisms for Neural Networks

Transforming and Combining Rewards for Aligning Large Language Models