Kaiwen Wang

6

Papers

17

Total Citations

Papers (6)

$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

NeurIPS 2025arXiv

Value-Guided Search for Efficient Chain-of-Thought Reasoning

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning

Switching the Loss Reduces the Cost in Batch Reinforcement Learning

Deep Multi-Modal Structural Equations For Causal Effect Estimation With Unstructured Proxies

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning