Scott Niekum

10

Papers

15

Total Citations

Papers (10)

Learning Optimal Advantage from Preferences and Mistaking It for Reward

Policy Evaluation Using the Ω-Return

Bayesian Robust Optimization for Imitation Learning

Adversarial Intrinsic Motivation for Reinforcement Learning

SOPE: Spectrum of Off-Policy Estimators

Universal Off-Policy Evaluation

On the Analysis of Complex Backup Strategies in Monte Carlo Tree Search

Data-Efficient Policy Evaluation Through Behavior Policy Search

Extrapolating Beyond Suboptimal Demonstrations via Inverse Reinforcement Learning from Observations

Importance Sampling Policy Evaluation with an Estimated Behavior Policy