Qiaomin Xie

16

Papers

8

Total Citations

Papers (16)

Effectiveness of Constant Stepsize in Markovian LSA and Statistical Inference

Exact Policy Recovery in Offline RL with Both Heavy-Tailed Rewards and Data Corruption

Stable Offline Value Function Learning with Bisimulation-based Representations

Coupling-based Convergence Diagnostic and Stepsize Scheme for Stochastic Gradient Descent

Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces

Minimally Modifying a Markov Game to Achieve Any Nash Equilibrium and Value

Contextual Online Pricing with (Biased) Offline Data

Optimal Attack and Defense for Reinforcement Learning

Data Poisoning to Fake a Nash Equilibria for Markov Games

Roping in Uncertainty: Robustness and Regularization in Markov Games

Q-learning with Nearest Neighbors

POLY-HOOT: Monte-Carlo Planning in Continuous Space MDPs with Non-Asymptotic Analysis

Dynamic Regret of Policy Optimization in Non-Stationary Environments

Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret

Restless Bandits with Average Reward: Breaking the Uniform Global Attractor Assumption

Multi-task Representation Learning for Pure Exploration in Bilinear Bandits