Shuang Qiu

6

Papers

47

Total Citations

Papers (6)

Online Preference Alignment for Language Models via Count-based Exploration

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies

ROPO: Robust Preference Optimization for Large Language Models

Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment

Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning