RLHF

CVPR 2024arXiv:2312.00849

#3

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

Tianyu Yu, Yuan Yao, Haoye Zhang et al.

344

AAAI 2024arXiv:2306.17492

#4

Preference Ranking Optimization for Human Alignment

Feifan Song, Bowen Yu, Minghao Li et al.

preference ranking optimizationhuman alignmentreinforcement learning from human feedbacklarge language models+2

334

ICLR 2024arXiv:2310.06452

#5

Understanding the Effects of RLHF on LLM Generalisation and Diversity

Robert Kirk, Ishita Mediratta, Christoforos Nalmpantis et al.

267

NeurIPS 2025arXiv:2504.08837

#6

Self-Play Preference Optimization for Language Model Alignment

Yue Wu, Zhiqing Sun, Rina Hughes et al.

VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

Haozhe Wang, Chao Qu, Zuming Huang et al.

169

CVPR 2024arXiv:2303.09618

#8

HIVE: Harnessing Human Feedback for Instructional Visual Editing

Shu Zhang, Xinyi Yang, Yihao Feng et al.

164

ICLR 2024arXiv:2310.12921

#9

ToolRL: Reward is All Tool Learning Needs

Cheng Qian, Emre Can Acikgoz, Qi He et al.

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Juan Rocamonde, Victoriano Montesinos, Elvis Nava et al.

133

NeurIPS 2025arXiv:2504.16084

#11

TTRL: Test-Time Reinforcement Learning

Yuxin Zuo, Kaiyan Zhang, Li Sheng et al.

test-time reinforcement learningreward estimationlarge language modelsreasoning tasks+4

118

ICLR 2025arXiv:2411.02337

#12

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Zehan Qi, Xiao Liu, Iat Long Iong et al.

llm web agentsonline curriculum reinforcement learningself-evolving curriculumoutcome-supervised reward model+3

110

ICLR 2024arXiv:2311.14455

#13

Universal Jailbreak Backdoors from Poisoned Human Feedback

Javier Rando, Florian Tramer

108

NeurIPS 2025arXiv:2501.13918

#14

Improving Video Generation with Human Feedback

Jie Liu, Gongye Liu, Jiajun Liang et al.

106

ICLR 2025arXiv:2410.01257

#15

HelpSteer2-Preference: Complementing Ratings with Preferences

Zhilin Wang, Alexander Bukharin, Olivier Delalleau et al.

reward modelingbradley-terry modelpreference annotationinstruction following alignment+4

102

CVPR 2024arXiv:2312.12490

#16

InstructVideo: Instructing Video Diffusion Models with Human Feedback

Hangjie Yuan, Shiwei Zhang, Xiang Wang et al.

80

ICLR 2024arXiv:2310.04373

#17

Confronting Reward Model Overoptimization with Constrained RLHF

Ted Moskovitz, Aaditya Singh, DJ Strouse et al.

73

ICLR 2025arXiv:2409.12822

#18

Language Models Learn to Mislead Humans via RLHF

Jiaxin Wen, Ruiqi Zhong, Akbir Khan et al.

language model alignmentreinforcement learning from human feedbackmodel deception detectionhuman evaluation accuracy+4

71

ICML 2025arXiv:2311.18232

#19

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

Marwa Abdulhai, Isadora White, Charlie Snell et al.

63

NeurIPS 2025arXiv:2504.07954

#20

Perception-R1: Pioneering Perception Policy with Reinforcement Learning

En Yu, Kangheng Lin, Liang Zhao et al.

58

CVPR 2025arXiv:2405.17220

#21

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

Tianyu Yu, Haoye Zhang, Qiming Li et al.

hallucination reductionmultimodal large language modelspreference learningopen-source alignment+4

54

ICLR 2025arXiv:2407.14622

#22

BOND: Aligning LLMs with Best-of-N Distillation

Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot-Desenonges et al.

reinforcement learning from human feedbackbest-of-n samplingdistribution matchingjeffreys divergence+4

50

ICLR 2025arXiv:2410.14872

#23

How to Evaluate Reward Models for RLHF

Evan Frick, Tianle Li, Connor Chen et al.

reward model evaluationreinforcement learning from human feedbackhuman preference datasetsproxy task evaluation+3

50

ICLR 2025arXiv:2411.02306

#24

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

Hao Gao, Shaoyu Chen, Bo Jiang et al.

On Targeted Manipulation and Deception when Optimizing LLMs for User Feedback

Marcus Williams, Micah Carroll, Adhyyan Narang et al.

41

ICLR 2024arXiv:2302.08560

#26

Dual RL: Unification and New Methods for Reinforcement and Imitation Learning

Harshit Sikchi, Qinqing Zheng, Amy Zhang et al.

39

ICLR 2024arXiv:2305.14816

#27

Provable Offline Preference-Based Reinforcement Learning

Wenhao Zhan, Masatoshi Uehara, Nathan Kallus et al.

39

ICLR 2024arXiv:2310.14554

#28

Making RL with Preference-based Feedback Efficient via Randomization

Runzhe Wu, Wen Sun

37

NeurIPS 2025arXiv:2505.11475

#29

CPPO: Continual Learning for Reinforcement Learning with Human Feedback

Han Zhang, Yu Lei, Lin Gui et al.

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

Zhilin Wang, Jiaqi Zeng, Olivier Delalleau et al.

preference datasetsreinforcement learning from human feedbackreward modelsinstruction-following language models+4

31

ICLR 2024arXiv:2308.15812

#31

Peering Through Preferences: Unraveling Feedback Acquisition for Aligning Large Language Models

Hritik Bansal, John Dang, Aditya Grover

26

AAAI 2024arXiv:2309.12891

#32

EarnHFT: Efficient Hierarchical Reinforcement Learning for High Frequency Trading

Molei Qin, Shuo Sun, Wentao Zhang et al.

hierarchical reinforcement learninghigh frequency tradingcryptocurrency marketdynamic programming+4

24

ICLR 2025arXiv:2408.15313

#33

Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models

Wenxuan Zhang, Philip Torr, Mohamed Elhoseiny et al.

AAAI 2025arXiv:2412.11120

#34

Latent Reward: LLM-Empowered Credit Assignment in Episodic Reinforcement Learning

Yun Qu, Yuhang Jiang, Boyuan Wang et al.

ICML 2025arXiv:2502.03492

#35

Teaching Language Models to Critique via Reinforcement Learning

Zhihui Xie, Jie chen, Liyu Chen et al.

ECCV 2024arXiv:2409.18343

#36

Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving

Zhenghao Peng, Wenjie Luo, Yiren Lu et al.

autonomous drivingagent behavior modelingreinforcement learning fine-tuningdistribution shift+4

ICML 2025arXiv:2505.07395

#37

ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning

Hongyin Zhang, Zifeng Zhuang, Han Zhao et al.

20

NeurIPS 2025arXiv:2505.20347

#38

SeRL: Self-play Reinforcement Learning for Large Language Models with Limited Data

Wenkai Fang, Shunyu Liu, Yang Zhou et al.

reinforcement learninglarge language modelsself-instruction generationself-rewarding mechanisms+4

19

ICLR 2025arXiv:2501.12735

#39

Online Preference Alignment for Language Models via Count-based Exploration

Chenjia Bai, Yang Zhang, Shuang Qiu et al.

19

ICLR 2025arXiv:2405.18418

#40

Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards

Zijing Hu, Fengda Zhang, Long Chen et al.

Hierarchical World Models as Visual Whole-Body Humanoid Controllers

Nick Hansen, Jyothir S V, Vlad Sobal et al.

whole-body controlhumanoid roboticsvisual observationshierarchical world model+4

19

ICLR 2025arXiv:2411.00418

#42

SELF-EVOLVED REWARD LEARNING FOR LLMS

Chenghua Huang, Zhizhen Fan, Lu Wang et al.

reinforcement learning from human feedbackreward model trainingself-evolved learninglanguage model alignment+3

18

AAAI 2024arXiv:2310.02456

#43

Learning Optimal Advantage from Preferences and Mistaking It for Reward

W Bradley Knox, Stephane Hatgis-Kessell, Sigurdur Orn Adalgeirsson et al.

reward function learninghuman preference modelingregret preference modelpartial return assumption+4

15

NeurIPS 2025arXiv:2505.13445

#44

Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards

Xiaoyuan Liu, Tian Liang, Zhiwei He et al.

15

ICLR 2025arXiv:2410.04612

#45

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

Zhaolin Gao, Wenhao Zhan, Jonathan Chang et al.

14

ECCV 2024arXiv:2303.10571

#46

Reinforcement Learning Friendly Vision-Language Model for Minecraft

Haobin Jiang, Junpeng Yue, Hao Luo et al.

14

AAAI 2024arXiv:2307.16348

#47

Rating-Based Reinforcement Learning

Devin White, Mingkang Wu, Ellen Novoseller et al.

reinforcement learninghuman ratingspreference-based learningrating prediction model+3

ICML 2025arXiv:2502.04270

#48

PILAF: Optimal Human Preference Sampling for Reward Modeling

Yunzhen Feng, Ariel Kwiatkowski, Kunhao Zheng et al.

NeurIPS 2025arXiv:2506.20520

#49

Asymmetric REINFORCE for off-Policy Reinforcement Learning: Balancing positive and negative rewards

Charles Arnal, Gaëtan Narozniak, Vivien Cabannes et al.

ICLR 2025arXiv:2502.12130

#50

Scaling Autonomous Agents via Automatic Reward Modeling And Planning

Zhenfang Chen, Delin Chen, Rui Sun et al.

ICLR 2024arXiv:2306.03346

#51

Post-hoc Reward Calibration: A Case Study on Length Bias

Zeyu Huang, Zihan Qiu, zili wang et al.

Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data

Chongyi Zheng, Benjamin Eysenbach, Homer Walke et al.

11

NeurIPS 2025arXiv:2505.22094

#53

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Tonghe Zhang, Chao Yu, Sichang Su et al.

flow matchingreinforcement learning fine-tuningrobotic controlrectified flow+4

10

ICLR 2025arXiv:2404.18870

#54

More RLHF, More Trust? On The Impact of Preference Alignment On Trustworthiness

Aaron J. Li, Satyapriya Krishna, Hima Lakkaraju

reinforcement learning from human feedbacklarge language modelsmodel trustworthinesspreference alignment+4

10

ICLR 2025arXiv:2409.17401

#55

Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference

Qining Zhang, Lei Ying

9

NeurIPS 2025arXiv:2506.00070

#56

Evaluating Large Language Models through Role-Guide and Self-Reflection: A Comparative Study

Lili Zhao, Yang Wang, Qi Liu et al.

Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

Dongyoung Kim, Huiwon Jang, Sumin Park et al.

reinforcement learningembodied reasoningrobot controlvision-language models+4

9

AAAI 2025arXiv:2403.16427

#58

Rapidly Adapting Policies to the Real-World via Simulation-Guided Fine-Tuning

Patrick Yin, Tyler Westenbroek, Ching-An Cheng et al.

Re2LLM: Reflective Reinforcement Large Language Model for Session-based Recommendation

Ziyan Wang, Yingpeng Du, Zhu Sun et al.

ICLR 2025arXiv:2406.01309

#60

REvolve: Reward Evolution with Large Language Models using Human Feedback

RISHI HAZRA, Alkis Sygkounas, Andreas Persson et al.

reward function designreinforcement learninglarge language modelshuman feedback integration+3

ICLR 2025arXiv:2411.05193

#61

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning

Joey Hong, Anca Dragan, Sergey Levine

ICLR 2024arXiv:2311.01450

#62

DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing

Vint Lee, Pieter Abbeel, Youngwoon Lee

ICLR 2024arXiv:2404.16779

#63

DrS: Learning Reusable Dense Rewards for Multi-Stage Tasks

Tongzhou Mu, Minghua Liu, Hao Su

7

ICML 2025arXiv:2506.12822

#64

Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models

Minh-Tung Luu, Younghwan Lee, Donghoon Lee et al.

7

ICLR 2025arXiv:2410.04166

#65

Learning from negative feedback, or positive feedback or both

Abbas Abdolmaleki, Bilal Piot, Bobak Shahriari et al.

preference optimizationnegative feedback learningexpectation-maximization algorithmshuman feedback training+3

7

ICLR 2025arXiv:2411.07007

#66

Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching

Arnav Kumar Jain, Harley Wiltzer, Jesse Farebrother et al.

inverse reinforcement learningsuccessor feature matchingpolicy gradient descentstate-only imitation+4

CVPR 2025arXiv:2505.24816

#67

CL-LoRA: Continual Low-Rank Adaptation for Rehearsal-Free Class-Incremental Learning

Jiangpeng He, Zhihao Duan, Fengqing Zhu

class-incremental learningparameter-efficient fine-tuninglow-rank adaptationdual-adapter architecture+4

AAAI 2025arXiv:2409.13948

#68

Aligning Language Models Using Follow-up Likelihood as Reward Signal

Chen Zhang, Dading Chong, Feng Jiang et al.

AAAI 2025arXiv:2402.01886

#69

Inverse Reinforcement Learning by Estimating Expertise of Demonstrators

Mark Beliaev, Ramtin Pedarsani

AAAI 2025arXiv:2412.15534

#70

SORREL: Suboptimal-Demonstration-Guided Reinforcement Learning for Learning to Branch

Shengyu Feng, Yiming Yang

AAAI 2025arXiv:2311.04830

#71

PA2D-MORL: Pareto Ascent Directional Decomposition Based Multi-Objective Reinforcement Learning

Tianmeng Hu, Biao Luo

Real-Time Recurrent Reinforcement Learning

Julian Lemmel, Radu Grosu

CVPR 2025arXiv:2412.19637

#73

ERL-TD: Evolutionary Reinforcement Learning Enhanced with Truncated Variance and Distillation Mutation

Qiuzhen Lin, Yangfan Chen, Lijia Ma et al.

UTILITY: Utilizing Explainable Reinforcement Learning to Improve Reinforcement Learning

Shicheng Liu, Minghui Zhu

ReNeg: Learning Negative Embedding with Reward Guidance

Xiaomin Li, yixuan liu, Takashi Isobe et al.

ICML 2025arXiv:2505.07271

#76

On the Robustness of Reward Models for Language Model Alignment

Jiwoo Hong, Noah Lee, Eunki Kim et al.

ICML 2025arXiv:2410.08067

#77

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

Shenao Zhang, Zhihan Liu, Boyi Liu et al.

direct alignment algorithmspreference optimizationimplicit reward modelingoff-policy alignment+3

#78

SeRA: Self-Reviewing and Alignment of LLMs using Implicit Reward Margins

Jongwoo Ko, Saket Dingliwal, Bhavana Ganesh et al.

ICLR 2025

ICLR 2025arXiv:2407.00699

#79

Model-based Offline Reinforcement Learning with Lower Expectile Q-Learning

Kwanyoung Park, Youngwoon Lee

NeurIPS 2025arXiv:2506.18631

#80

Q-Adapter: Customizing Pre-trained LLMs to New Preferences with Forgetting Mitigation

Yi-Chen Li, Fuxiang Zhang, Wenjie Qiu et al.

ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning

Ruiyang Zhou, Shuozhe Li, Amy Zhang et al.

ReDit: Reward Dithering for Improved LLM Policy Optimization

Chenxing Wei, Jiarui Yu, Ying He et al.

NeurIPS 2025arXiv:2506.21669

#83

SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents

Wanxin Tian, Shijie Zhang, Kevin Zhang et al.

ICML 2025arXiv:2502.19255

#84

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective

Jiawei Huang, Bingcong Li, Christoph Dann et al.

ICLR 2024arXiv:2401.16444

#85

Enhancing Human Experience in Human-Agent Collaboration: A Human-Centered Modeling Approach Based on Positive Human Gain

Yiming Gao, Feiyu Liu, Liang Wang et al.

ICML 2025arXiv:2502.18699

#86

MPO: An Efficient Post-Processing Framework for Mixing Diverse Preference Alignment

Tianze Wang, Dongnan Gui, Yifan Hu et al.

ICML 2025arXiv:2502.15145

#87

Projection Optimization: A General Framework for Multi-Objective and Multi-Group RLHF

Nuoya Xiong, Aarti Singh

ICML 2025arXiv:2404.02113

#88

Position: Lifetime tuning is incompatible with continual reinforcement learning

Golnaz Mesbahi, Parham Mohammad Panahi, Olya Mastikhina et al.

AAAI 2025arXiv:2505.05609

#89

On Corruption-Robustness in Performative Reinforcement Learning

Vasilis Pollatos, Debmalya Mandal, Goran Radanovic

ECCV 2024arXiv:2407.14872

#90

MetaCARD: Meta-Reinforcement Learning with Task Uncertainty Feedback via Decoupled Context-Aware Reward and Dynamics Components

Min Wang, Xin Li, Leiji Zhang et al.

Visual Reinforcement Learning with Residual Action

Zhenxian Liu, Peixi Peng, Yonghong Tian

Capturing Individual Human Preferences with Reward Features

Andre Barreto, Vincent Dumoulin, Yiran Mao et al.

Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts

Yanting Yang, Minghao Chen, Qibo Qiu et al.

vision-language modelslanguage-conditioned rewardrobotic planningreinforcement learning+4

CVPR 2025arXiv:2504.07095

#94

Doubly Robust Alignment for Large Language Models

Erhan Xu, Kai Ye, Hongyi Zhou et al.

Neural Motion Simulator Pushing the Limit of World Models in Reinforcement Learning

Chenjie Hao, Weyl Lu, Yifan Xu et al.

ICCV 2025arXiv:2508.06125

#96

SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning

Lin Zhang, Xianfang Zeng, Kangcong Li et al.

ICCV 2025arXiv:2507.12083

#97

Foresight in Motion: Reinforcing Trajectory Prediction with Reward Heuristics

Muleilan Pei, Shaoshuai Shi, Xuesong Chen et al.

trajectory predictionmotion forecastingautonomous drivinginverse reinforcement learning+4

ICLR 2025arXiv:2410.05782

#98

Reinforcement Learning from Imperfect Corrective Actions and Proxy Rewards

Zhaohui JIANG, Xuening Feng, Paul Weng et al.

reward modelinghuman preference learningpolicy optimizationoff-distribution problem+4

#99

Uncertainty and Influence aware Reward Model Refinement for Reinforcement Learning from Human Feedback

Zexu Sun, Yiju Guo, Yankai Lin et al.

ICLR 2025

AAAI 2025arXiv:2503.01178

#100

Differentiable Information Enhanced Model-Based Reinforcement Learning

Xiaoyuan Zhang, Xinyan Cai, Bo Liu et al.