Yuanzhao Zhai

4

Papers

24

Total Citations

Papers (4)

Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models

Correcting Large Language Model Behavior via Influence Function

Optimistic Model Rollouts for Pessimistic Offline Policy Optimization

Iterative Regularized Policy Optimization with Imperfect Demonstrations