Shenao Zhang

4

Papers

13

Total Citations

Papers (4)

BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

Adaptive-Gradient Policy Optimization: Enhancing Policy Learning in Non-Smooth Differentiable Simulations

Reason for Future, Act for Now: A Principled Architecture for Autonomous LLM Agents