Kaiwen Wang

4

Papers

17

Total Citations

Papers (4)

$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

NeurIPS 2025arXiv

Value-Guided Search for Efficient Chain-of-Thought Reasoning

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning

Switching the Loss Reduces the Cost in Batch Reinforcement Learning