Sergey Levine

122

Papers

3,515

Total Citations

Papers (122)

Unsupervised Learning for Physical Interaction through Video Prediction

NeurIPS 2016arXiv

Value Iteration Networks

NeurIPS 2016arXiv

Learning to Poke by Poking: Experiential Learning of Intuitive Physics

NeurIPS 2016arXiv

Backprop KF: Learning Discriminative Deterministic State Estimators

NeurIPS 2016arXiv

Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning

NeurIPS 2017arXiv

EX2: Exploration with Exemplar Models for Deep Reinforcement Learning

NeurIPS 2017arXiv

Guided Policy Search via Approximate Mirror Descent

OGBench: Benchmarking Offline Goal-Conditioned RL

METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

Scaling Test-Time Compute Without Verification or RL is Suboptimal

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

Flow Q-Learning

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

NeurIPS 2025arXiv

Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design

RLIF: Interactive Imitation Learning as Reinforcement Learning

Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design

Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data

Prioritized Generative Replay

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning

Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration

Behavioral Exploration: Learning to Explore via In-Context Adaptation

Recurrent Network Models for Human Dynamics

GPLAC: Generalizing Vision-Based Robotic Skills Using Weakly Labeled Images

PRECOG: PREdiction Conditioned on Goals in Visual Multi-Agent Settings

Learning Predictive Models from Observation and Interaction

Feedback Efficient Online Fine-Tuning of Diffusion Models

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Foundation Policies with Hilbert Representations

Unsupervised Zero-Shot Reinforcement Learning via Functional Reward Encodings

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

Prompting is a Double-Edged Sword: Improving Worst-Group Robustness of Foundation Models

Learning Temporal Distances: Contrastive Successor Features Can Provide a Metric Structure for Decision-Making

Learning to Explore in POMDPs with Informational Rewards

PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs

Cognitive Mapping and Planning for Visual Navigation

Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control

Sim-To-Real via Sim-To-Sim: Data-Efficient Robotic Grasping via Randomized-To-Canonical Adaptation Networks

RL-CycleGAN: Reinforcement Learning Aware Simulation-to-Real

Autonomous Reinforcement Learning via Subgoal Curricula

Adaptive Risk Minimization: Learning to Adapt to Domain Shift

Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability

Which Mutual-Information Representation Learning Objectives are Sufficient for Control?

Pragmatic Image Compression for Human-in-the-Loop Decision-Making

Robust Predictable Control

COMBO: Conservative Offline Model-Based Policy Optimization

Imitating Past Successes can be Very Suboptimal

Data-Driven Offline Decision-Making via Invariant Representation Learning

You Only Live Once: Single-Life Reinforcement Learning

Unpacking Reward Shaping: Understanding the Benefits of Reward Engineering on Sample Complexity

Adversarial Unlearning: Reducing Confidence Along Adversarial Directions

Mismatched No More: Joint Model-Policy Optimization for Model-Based RL

Distributionally Adaptive Meta Reinforcement Learning

First Contact: Unsupervised Human-Machine Co-Adaptation via Mutual Information Maximization

Object Representations as Fixed Points: Training Iterative Refinement Algorithms with Implicit Differentiation

Contrastive Learning as Goal-Conditioned Reinforcement Learning

MEMO: Test Time Robustness via Adaptation and Augmentation

DASCO: Dual-Generator Adversarial Support Constrained Offline Reinforcement Learning

ReDS: Offline RL With Heteroskedastic Datasets via Support Constraints

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

Learning to Influence Human Behavior with Offline Reinforcement Learning

Ignorance is Bliss: Robust Control via Information Gating

Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

Accelerating Exploration with Unlabeled Prior Data

Trust Region Policy Optimization

Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization

Continuous Deep Q-Learning with Model-based Acceleration

Modular Multitask Reinforcement Learning with Policy Sketches

Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

Reinforcement Learning with Deep Energy-Based Policies

Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings

Latent Space Policies for Hierarchical Reinforcement Learning

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

Regret Minimization for Partially Observable Deep Reinforcement Learning

Universal Planning Networks: Learning Generalizable Representations for Visuomotor Control

The Mirage of Action-Dependent Baselines in Reinforcement Learning

Online Meta-Learning

Diagnosing Bottlenecks in Deep Q-learning Algorithms

EMI: Exploration with Mutual Information

Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

Learning a Prior over Intent via Meta-Inverse Reinforcement Learning

SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

Meta-Reinforcement Learning of Structured Exploration Strategies

Visual Memory for Robust Path Following

Where Do You Think You're Going?: Inferring Beliefs about Dynamics from Behavior

Visual Reinforcement Learning with Imagined Goals

Probabilistic Model-Agnostic Meta-Learning

Variational Inverse Control with Events: A General Framework for Data-Driven Reward Definition

Data-Efficient Hierarchical Reinforcement Learning

Compositional Plan Vectors

Meta-Learning with Implicit Gradients

Search on the Replay Buffer: Bridging Planning and Reinforcement Learning

When to Trust Your Model: Model-Based Policy Optimization

Causal Confusion in Imitation Learning

MCP: Learning Composable Hierarchical Control with Multiplicative Compositional Policies

Off-Policy Evaluation via Off-Policy Classification

Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction

Planning with Goal-Conditioned Policies

Guided Meta-Policy Search

Unsupervised Curricula for Visual Meta-Reinforcement Learning

Wasserstein Dependency Measure for Representation Learning

Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model

Conservative Q-Learning for Offline Reinforcement Learning

Gamma-Models: Generative Temporal Difference Learning for Infinite-Horizon Prediction

Continual Learning of Control Primitives : Skill Discovery via Reset-Games

Model Inversion Networks for Model-Based Optimization

Gradient Surgery for Multi-Task Learning

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL

Emergent Complexity and Zero-shot Transfer via Unsupervised Environment Design

MOPO: Model-based Offline Policy Optimization

Rewriting History with Inverse RL: Hindsight Inference for Policy Improvement

Long-Horizon Visual Planning with Goal-Conditioned Hierarchical Predictors

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

Bayesian Adaptation for Covariate Shift

Offline Reinforcement Learning as One Big Sequence Modeling Problem

Information is Power: Intrinsic Control via Information Capture

Conservative Data Sharing for Multi-Task Offline Reinforcement Learning

Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification

Outcome-Driven Reinforcement Learning via Variational Inference