Andrea Zanette

11

Papers

3

Total Citations

Papers (11)

Accelerating Unbiased LLM Evaluation via Synthetic Feedback

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Limiting Extrapolation in Linear Approximate Value Iteration

Almost Horizon-Free Structure-Aware Best Policy Identification with a Generative Model

Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration

Provable Benefits of Actor-Critic Methods for Offline Reinforcement Learning

Design of Experiments for Stochastic Contextual Linear Bandits

Bellman Residual Orthogonalization for Offline Reinforcement Learning

Policy Finetuning in Reinforcement Learning via Design of Experiments using Offline Data

Problem Dependent Reinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs

Tighter Problem-Dependent Regret Bounds in Reinforcement Learning without Domain Knowledge using Value Function Bounds