🧬Reinforcement Learning

Model-Based RL

RL with learned world models

100 papers4,734 total citations

Compare with other topics

Feb '24 — Jan '26772 papers

Top Conferences

ICLR: 46 NeurIPS: 21 CVPR: 10 AAAI: 7 ECCV: 6 ICCV: 6

Top Papers

#1

WorldSimBench: Towards Video Generation Models as World Simulators

Yiran Qin, Zhelun Shi, Jiwen Yu et al.

Learning Interactive Real-World Simulators

Sherry Yang, Yilun Du, Seyed Ghasemipour et al.

TD-MPC2: Scalable, Robust World Models for Continuous Control

Nicklas Hansen, Hao Su, Xiaolong Wang

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

Wenzhao Zheng, Weiliang Chen, Yuanhui Huang et al.

ToolRL: Reward is All Tool Learning Needs

Cheng Qian, Emre Can Acikgoz, Qi He et al.

Multimodal Web Navigation with Instruction-Finetuned Foundation Models

Hiroki Furuta, Kuang-Huei Lee, Ofir Nachum et al.

Navigation World Models

Amir Bar, Gaoyue Zhou, Danny Tran et al.

CVPR 2025arXiv:2412.03572

navigation world modelscontrollable video generationconditional diffusion transformeregocentric video prediction+3

136

citations

#8

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Juan Rocamonde, Victoriano Montesinos, Elvis Nava et al.

Interpreting Emergent Planning in Model-Free Reinforcement Learning

Thomas Bush, Stephen Chung, Usman Anwar et al.

ICLR 2025arXiv:1901.03559

model-free reinforcement learningconcept-based interpretabilityemergent planningmechanistic interpretability+3

124

citations

#10

Towards Learning a Generalist Model for Embodied Navigation

Duo Zheng, Shijia Huang, Lin Zhao et al.

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Zehan Qi, Xiao Liu, Iat Long Iong et al.

RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding

Jihan Yang, Runyu Ding, Weipeng DENG et al.

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Mingjie Liu, Shizhe Diao, Ximing Lu et al.

Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion

Lunjun Zhang, Yuwen Xiong, Ze Yang et al.

OGBench: Benchmarking Offline Goal-Conditioned RL

Seohong Park, Kevin Frans, Benjamin Eysenbach et al.

ICLR 2025arXiv:2410.20092

offline reinforcement learninggoal-conditioned rlbenchmark evaluationoffline gcrl algorithms+3

74

citations

#16

Confronting Reward Model Overoptimization with Constrained RLHF

Ted Moskovitz, Aaditya Singh, DJ Strouse et al.

METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

Seohong Park, Oleh Rybkin, Sergey Levine

HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation

Yi Li, Yuquan Deng, Jesse Zhang et al.

Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Hyungjoo Chae, Namyoung Kim, Kai Ong et al.

ICLR 2025arXiv:2410.13232

web navigation agentsworld modelslarge language modelsautonomous agents+4

59

citations

#20

Perception-R1: Pioneering Perception Policy with Reinforcement Learning

En Yu, Kangheng Lin, Liang Zhao et al.

NeurIPS 2025arXiv:2504.07954

58

citations

#21

CLoSD: Closing the Loop between Simulation and Diffusion for multi-task character control

Guy Tevet, Sigal Raab, Setareh Cohan et al.

VinePPO: Refining Credit Assignment in RL Training of LLMs

Amirhossein Kazemnejad, Milad Aghajohari, Eva Portelance et al.

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Danny Driess, Jost Springenberg, Brian Ichter et al.

NeurIPS 2025arXiv:2505.23705

vision-language-action modelscontinuous control policiesdiffusion action expertflow matching+4

46

citations

#24

DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers

Yuntao Chen, Yuqi Wang, Zhaoxiang Zhang

Learning 4D Embodied World Models

Haoyu Zhen, Qiao Sun, Hongxin Zhang et al.

ICCV 2025arXiv:2504.20995

4d world modelsembodied agent actionsrgb-dn video generationinverse dynamic models+4

43

citations

#26

Think2Drive: Efficient Reinforcement Learning by Thinking with Latent World Model for Autonomous Driving (in CARLA-v2)

Qifeng Li, Xiaosong Jia, Shaobo Wang et al.

ECCV 2024

reinforcement learningautonomous drivingworld modellatent state space+4

43

citations

#27

Dual RL: Unification and New Methods for Reinforcement and Imitation Learning

Harshit Sikchi, Qinqing Zheng, Amy Zhang et al.

STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?

Yun Li, Yiming Zhang, Tao Lin et al.

SafeDreamer: Safe Reinforcement Learning with World Models

Weidong Huang, Jiaming Ji, Chunhe Xia et al.

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Xuehai He, Weixi Feng, Kaizhi Zheng et al.

ICLR 2025arXiv:2406.08407

multimodal video understandingworld model evaluationmultimodal language modelscounterfactual reasoning+3

34

citations

#31

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

Hongxin Zhang, Zeyuan Wang, Qiushi Lyu et al.

Distilling Autoregressive Models to Obtain High-Performance Non-autoregressive Solvers for Vehicle Routing Problems with Faster Inference Speed

Yubin Xiao, Di Wang, Boyang Li et al.

AAAI 2024arXiv:2312.12469

knowledge distillationautoregressive modelsnon-autoregressive modelsvehicle routing problems+2

31

citations

#33

System 1.x: Learning to Balance Fast and Slow Planning with Language Models

Swarnadeep Saha, Archiki Prasad, Justin Chen et al.

WorldModelBench: Judging Video Generation Models As World Models

Dacheng Li, Yunhao Fang, Yukang Chen et al.

PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning

Qingdong He, Jiangning Zhang, Jinlong Peng et al.

Long-Context State-Space Video World Models

Ryan Po, Yotam Nitzan, Richard Zhang et al.

KABB: Knowledge-Aware Bayesian Bandits for Dynamic Expert Coordination in Multi-Agent Systems

Jusheng Zhang, Zimeng Huang, Yijia Fan et al.

A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning

Yinmin Zhang, Jie Liu, Chuming Li et al.

AAAI 2024arXiv:2312.07685

offline reinforcement learningq-value estimationonline finetuningoffline-to-online rl+3

25

citations

#39

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning

Duojun Huang, Xinyu Xiong, Jie Ma et al.

Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination

Leonardo Barcellona, Andrii Zadaianchuk, Davide Allegro et al.

Pre-Training Goal-based Models for Sample-Efficient Reinforcement Learning

Haoqi Yuan, Zhancun Mu, Feiyang Xie et al.

Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving

Zhenghao Peng, Wenjie Luo, Yiren Lu et al.

GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding

Dongping Chen, Yue Huang, Siyuan Wu et al.

Domain Prompt Learning with Quaternion Networks

Qinglong Cao, Zhengqin Xu, Yuntian Chen et al.

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

Desai Xie, Jiahao Li, Hao Tan et al.

Reinforced Lifelong Editing for Language Models

Zherui Li, Houcheng Jiang, Hao Chen et al.

Navigation Instruction Generation with BEV Perception and Large Language Models

Sheng Fan, Rui Liu, Wenguan Wang et al.

Hierarchical World Models as Visual Whole-Body Humanoid Controllers

Nick Hansen, Jyothir S V, Vlad Sobal et al.

ICLR 2025arXiv:2405.18418

whole-body controlhumanoid roboticsvisual observationshierarchical world model+4

20

citations

#49

Efficient Reinforcement Learning with Large Language Model Priors

Xue Yan, Yan Song, Xidong Feng et al.

Locality Sensitive Sparse Encoding for Learning World Models Online

Zichen Liu, Chao Du, Wee Sun Lee et al.

Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)

Zhenjie Yang, Xiaosong Jia, Qifeng Li et al.

NeurIPS 2025arXiv:2505.16394

reinforcement learningautonomous drivingworld modelsmodel-based reinforcement learning+4

18

citations

#52

Bridging Distributional and Risk-sensitive Reinforcement Learning with Provable Regret Bounds

Hao Liang, Zhiquan Luo

MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Bhavya, Stelian Coros, Andreas Krause et al.

Cross-Embodiment Dexterous Grasping with Reinforcement Learning

Haoqi Yuan, Bohan Zhou, Yuhui Fu et al.

COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL

Xiyao Wang, Ruijie Zheng, Yanchao Sun et al.

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

Hongyin Zhang, Pengxiang Ding, Shangke Lyu et al.

Zero-shot forecasting of chaotic systems

Yuanzhao Zhang, William Gilpin

Stitching Sub-trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL

Sungyoon Kim, Yunseon Choi, Daiki Matsunaga et al.

AAAI 2024arXiv:2402.07226

offline reinforcement learninggoal-conditioned rlconditional diffusion modelssub-trajectory stitching+4

17

citations

#59

Learning 3D Persistent Embodied World Models

Siyuan Zhou, Yilun Du, Yuncong Yang et al.

CORN: Contact-based Object Representation for Nonprehensile Manipulation of General Unseen Objects

Yoonyoung Cho, Junhyek Han, Yoontae Cho et al.

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tur et al.

Learning Optimal Advantage from Preferences and Mistaking It for Reward

W Bradley Knox, Stephane Hatgis-Kessell, Sigurdur Orn Adalgeirsson et al.

AAAI 2024arXiv:2310.02456

reward function learninghuman preference modelingregret preference modelpartial return assumption+4

15

citations

#63

GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models

Mianchu Wang, Rui Yang, Xi Chen et al.

Horizon Reduction Makes RL Scalable

Seohong Park, Kevin Frans, Deepinder Mann et al.

AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling

Zhining Zhang, Chuanyang Jin, Mung Yao Jia et al.

RoboScape: Physics-informed Embodied World Model

Yu Shang, Xin Zhang, Yinzhou Tang et al.

NeurIPS 2025arXiv:2506.23135

embodied world modelsphysics-informed learningvideo generationtemporal depth prediction+4

15

citations

#67

ReCoRe: Regularized Contrastive Representation Learning of World Model

Rudra P, K. Poudel, Harit Pandya et al.

Reinforcement Learning Friendly Vision-Language Model for Minecraft

Haobin Jiang, Junpeng Yue, Hao Luo et al.

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

Xiao Liang, Zhong-Zhi Li, Yeyun Gong et al.

MindJourney: Test-Time Scaling with World Models for Spatial Reasoning

Yuncong Yang, Jiageng Liu, Zheyuan Zhang et al.

TANGO: Training-free Embodied AI Agents for Open-world Tasks

Filippo Ziliotto, Tommaso Campari, Luciano Serafini et al.

MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling

Jian Yang, Dacheng Yin, Yizhou Zhou et al.

AdaWM: Adaptive World Model based Planning for Autonomous Driving

Hang Wang, Xin Ye, Feng Tao et al.

ICLR 2025arXiv:2501.13072

world model reinforcement learningautonomous driving planningdistribution shiftdynamics model mismatch+4

13

citations

#74

ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments

Taewoong Kim, Cheolhong Min, Byeonghwi Kim et al.

Force Prompting: Video Generation Models Can Learn And Generalize Physics-based Control Signals

Nate Gillman, Charles Herrmann, Michael Freeman et al.

Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations

Yongyuan Liang, Yanchao Sun, Ruijie Zheng et al.

Learning Transformer-based World Models with Contrastive Predictive Coding

Maxime Burchi, Radu Timofte

Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data

Chongyi Zheng, Benjamin Eysenbach, Homer Walke et al.

Open the Black Box: Step-based Policy Updates for Temporally-Correlated Episodic Reinforcement Learning

Ge Li, Hongyi Zhou, Dominik Roth et al.

Learning Decentralized Partially Observable Mean Field Control for Artificial Collective Behavior

Kai Cui, Sascha Hauck, Christian Fabian et al.

Learning Over Molecular Conformer Ensembles: Datasets and Benchmarks

Yanqiao Zhu, Jeehyun Hwang, Keir Adams et al.

DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation

Jiangran Lyu, Ziming Li, Xuesong Shi et al.

ICCV 2025arXiv:2503.16806

nonprehensile manipulationdynamics adaptationpartial observabilitysingle-view point cloud+4

10

citations

#83

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds

Zhiyong Wang, Dongruo Zhou, John C.S. Lui et al.

Fast training and sampling of Restricted Boltzmann Machines

Nicolas BEREUX, Aurélien Decelle, Cyril Furtlehner et al.

$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

Jin Zhou, Kaiwen Wang, Jonathan Chang et al.

NeurIPS 2025arXiv:2502.20548

distributional reinforcement learningkl-regularized rlllm post-trainingvalue-based algorithms+4

10

citations

#86

Open-World Reinforcement Learning over Long Short-Term Imagination

Jiajian Li, Qi Wang, Yunbo Wang et al.

Building Minimal and Reusable Causal State Abstractions for Reinforcement Learning

Zizhao Wang, Caroline Wang, Xuesu Xiao et al.

AAAI 2024arXiv:2401.12497

causal state abstractionsreinforcement learningimplicit dynamics modelsfactored state spaces+4

9

citations

#88

Rapidly Adapting Policies to the Real-World via Simulation-Guided Fine-Tuning

Patrick Yin, Tyler Westenbroek, Ching-An Cheng et al.

Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling

Yitian Chen, Jingfan Xia, Siyu Shao et al.

Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

Dongyoung Kim, Huiwon Jang, Sumin Park et al.

NeurIPS 2025arXiv:2506.00070

reinforcement learningembodied reasoningrobot controlvision-language models+4

9

citations

#91

Random-Set Neural Networks

Shireen Kudukkil Manchingal, Muhammad Mubashar, Kaizheng Wang et al.

ConfigX: Modular Configuration for Evolutionary Algorithms via Multitask Reinforcement Learning

Hongshu Guo, Zeyuan Ma, Jiacheng Chen et al.

DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing

Vint Lee, Pieter Abbeel, Youngwoon Lee

Learning with a Mole: Transferable latent spatial representations for navigation without reconstruction

Guillaume Bono, Leonid Antsfeld, Assem Sadek et al.

Rashomon Sets for Prototypical-Part Networks: Editing Interpretable Models in Real-Time

Jon Donnelly, Zhicheng Guo, Alina Jade Barnett et al.

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects

Tai Hoang, Huy Le, Philipp Becker et al.

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Tong Wei, Yijun Yang, Junliang Xing et al.

ICCV 2025arXiv:2503.08525

reinforcement learningvision-language modelschain-of-thought reasoningthought collapse+3

8

citations

#98

VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents

Kangrui Wang, Pingyue Zhang, Zihan Wang et al.

Flow-Based Policy for Online Reinforcement Learning

Lei Lv, Yunfei Li, Yu Luo et al.

Learning World Models for Interactive Video Generation

Taiye Chen, Xun Hu, Zihan Ding et al.

NeurIPS 2025

8

citations

Model-Based RL

Top Conferences

Related Topics (Reinforcement Learning)

Top Papers

WorldSimBench: Towards Video Generation Models as World Simulators

Learning Interactive Real-World Simulators

TD-MPC2: Scalable, Robust World Models for Continuous Control

OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

ToolRL: Reward is All Tool Learning Needs

Multimodal Web Navigation with Instruction-Finetuned Foundation Models

Navigation World Models

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Interpreting Emergent Planning in Model-Free Reinforcement Learning

Towards Learning a Generalist Model for Embodied Navigation

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion

OGBench: Benchmarking Offline Goal-Conditioned RL

Confronting Reward Model Overoptimization with Constrained RLHF

METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation

Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Perception-R1: Pioneering Perception Policy with Reinforcement Learning

CLoSD: Closing the Loop between Simulation and Diffusion for multi-task character control

VinePPO: Refining Credit Assignment in RL Training of LLMs

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers

Learning 4D Embodied World Models

Think2Drive: Efficient Reinforcement Learning by Thinking with Latent World Model for Autonomous Driving (in CARLA-v2)

Dual RL: Unification and New Methods for Reinforcement and Imitation Learning

STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?

SafeDreamer: Safe Reinforcement Learning with World Models

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

Distilling Autoregressive Models to Obtain High-Performance Non-autoregressive Solvers for Vehicle Routing Problems with Faster Inference Speed

System 1.x: Learning to Balance Fast and Slow Planning with Language Models

WorldModelBench: Judging Video Generation Models As World Models

PointRWKV: Efficient RWKV-Like Model for Hierarchical Point Cloud Learning

Long-Context State-Space Video World Models

KABB: Knowledge-Aware Bayesian Bandits for Dynamic Expert Coordination in Multi-Agent Systems

A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning

AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning

Dream to Manipulate: Compositional World Models Empowering Robot Imitation Learning with Imagination

Pre-Training Goal-based Models for Sample-Efficient Reinforcement Learning

Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving

GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding

Domain Prompt Learning with Quaternion Networks

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

Reinforced Lifelong Editing for Language Models

Navigation Instruction Generation with BEV Perception and Large Language Models

Hierarchical World Models as Visual Whole-Body Humanoid Controllers

Efficient Reinforcement Learning with Large Language Model Priors

Locality Sensitive Sparse Encoding for Learning World Models Online

Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)

Bridging Distributional and Risk-sensitive Reinforcement Learning with Provable Regret Bounds

MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization

Cross-Embodiment Dexterous Grasping with Reinforcement Learning

COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

Zero-shot forecasting of chaotic systems

Stitching Sub-trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL

Learning 3D Persistent Embodied World Models

CORN: Contact-based Object Representation for Nonprehensile Manipulation of General Unseen Objects

Reinforcement Learning Finetunes Small Subnetworks in Large Language Models

Learning Optimal Advantage from Preferences and Mistaking It for Reward

GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models

Horizon Reduction Makes RL Scalable

AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling

RoboScape: Physics-informed Embodied World Model

ReCoRe: Regularized Contrastive Representation Learning of World Model

Reinforcement Learning Friendly Vision-Language Model for Minecraft

SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

MindJourney: Test-Time Scaling with World Models for Spatial Reasoning

TANGO: Training-free Embodied AI Agents for Open-world Tasks

MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling

AdaWM: Adaptive World Model based Planning for Autonomous Driving

ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments

Force Prompting: Video Generation Models Can Learn And Generalize Physics-based Control Signals

Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations