Alekh Agarwal

33

Papers

467

Total Citations

Papers (33)

Off-policy evaluation for slate recommendation

NeurIPS 2017arXiv

Efficient Second Order Online Learning by Sketching

NeurIPS 2016arXiv

Theoretical guarantees on the best-of-n alignment policy

Contextual semibandits via supervised learning oracles

NeurIPS 2016arXiv

PAC Reinforcement Learning with Rich Observations

NeurIPS 2016arXiv

Design Considerations in Offline Preference-based RL

The Non-linear $F$-Design and Applications to Interactive Learning

Efficient and Parsimonious Agnostic Active Learning

A Minimaximalist Approach to Reinforcement Learning from Human Feedback

Fast Convergence of Regularized Learning in Games

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning

Ordering-based Conditions for Global Convergence of Policy Gradient Methods

A Lower Bound for the Optimization of Finite Sums

Learning to Search Better than Your Teacher

Contextual Decision Processes with low Bellman rank are PAC-Learnable

Active Learning for Cost-Sensitive Classification

Optimal and Adaptive Off-policy Evaluation in Contextual Bandits

A Reductions Approach to Fair Classification

Practical Contextual Bandits with Regression Oracles

Hierarchical Imitation and Reinforcement Learning

Fair Regression: Quantitative Definitions and Reduction-Based Algorithms

Provably efficient RL with Rich Observations via Latent State Decoding

Warm-starting Contextual Bandits: Robustly Combining Supervised and Bandit Feedback

On Oracle-Efficient PAC RL with Rich Observations

Bias Correction of Learned Generative Models using Likelihood-Free Importance Weighting

Provably Good Batch Off-Policy Reinforcement Learning Without Great Exploration

Policy Improvement via Imitation of Multiple Oracles

Safe Reinforcement Learning via Curriculum Induction

PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning

FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs

Bellman-consistent Pessimism for Offline Reinforcement Learning

On the Statistical Efficiency of Reward-Free Exploration in Non-Linear RL

Model-based RL with Optimistic Posterior Sampling: Structural Conditions and Sample Complexity