Rafael Rafailov

6

Papers

57

Total Citations

Papers (6)

MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?

NeurIPS 2025arXiv

Diffusion Model Alignment Using Direct Preference Optimization

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

Visual Adversarial Imitation Learning using Variational Models

COMBO: Conservative Offline Model-Based Policy Optimization

Direct Preference Optimization: Your Language Model is Secretly a Reward Model