Sergey Levine

27

Papers

538

Total Citations

Papers (27)

OGBench: Benchmarking Offline Goal-Conditioned RL

METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

Scaling Test-Time Compute Without Verification or RL is Suboptimal

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

Flow Q-Learning

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

NeurIPS 2025arXiv

Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design

Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data

RLIF: Interactive Imitation Learning as Reinforcement Learning

Language Guided Skill Discovery

Adding Conditional Control to Diffusion Models with Reinforcement Learning

Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design

Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data

Prioritized Generative Replay

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Behavioral Exploration: Learning to Explore via In-Context Adaptation

Prompting is a Double-Edged Sword: Improving Worst-Group Robustness of Foundation Models

Feedback Efficient Online Fine-Tuning of Diffusion Models

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making

Learning to Explore in POMDPs with Informational Rewards

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

Unsupervised Zero-Shot Reinforcement Learning via Functional Reward Encodings

Foundation Policies with Hilbert Representations