Shangtong Zhang

7

Papers

30

Total Citations

Papers (7)

Transformers Can Learn Temporal Difference Methods for In-Context Reinforcement Learning

Revisiting a Design Choice in Gradient Temporal Difference Learning

Linear $Q$-Learning Does Not Diverge in $L^2$: Convergence Rates to a Bounded Set

Doubly Optimal Policy Evaluation for Reinforcement Learning

Efficient Multi-Policy Evaluation for Reinforcement Learning

Efficient Policy Evaluation with Safety Constraint for Reinforcement Learning

Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design