Sanjeev Arora

7

Papers

78

Total Citations

Papers (7)

Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization

Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning

Generalizing from SIMPLE to HARD Visual Reasoning: Can We Mitigate Modality Imbalance in VLMs?

A Quadratic Synchronization Rule for Distributed Deep Learning

Trainable Transformer in Transformer

LESS: Selecting Influential Data for Targeted Instruction Tuning

Language Models as Science Tutors