Zhaoran Wang

7

Papers

15

Total Citations

Papers (7)

BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data?

How Does Goal Relabeling Improve Sample Efficiency?

Adaptive-Gradient Policy Optimization: Enhancing Policy Learning in Non-Smooth Differentiable Simulations

Reason for Future, Act for Now: A Principled Architecture for Autonomous LLM Agents

A General Framework for Sequential Decision-Making under Adaptivity Constraints