Wen Sun

10

Papers

132

Total Citations

Papers (10)

Provable Offline Preference-Based Reinforcement Learning

Making RL with Preference-based Feedback Efficient via Randomization

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

NeurIPS 2025arXiv

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds

Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees

Value-Guided Search for Efficient Chain-of-Thought Reasoning

NeurIPS 2025arXiv

On Speeding Up Language Model Evaluation

Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning