Shenao Zhang

7

Papers

13

Total Citations

Papers (7)

BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning

Reward-Augmented Data Enhances Direct Preference Alignment of LLMs

Adaptive-Gradient Policy Optimization: Enhancing Policy Learning in Non-Smooth Differentiable Simulations

Reason for Future, Act for Now: A Principled Architecture for Autonomous LLM Agents

Conservative Dual Policy Optimization for Efficient Model-Based Reinforcement Learning

NeurIPS 2022arXiv

Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration

NeurIPS 2023arXiv

Model-Based Reparameterization Policy Gradient Methods: Theory and Practical Algorithms

NeurIPS 2023arXiv