Xuezhou Zhang

10

Papers

19

Total Citations

Papers (10)

Accelerating RL for LLM Reasoning with Optimal Advantage Regression

NeurIPS 2025arXiv

Avoiding exp(R) scaling in RLHF through Preference-based Exploration

Efficient Reinforcement Learning in Probabilistic Reward Machines

Exact Policy Recovery in Offline RL with Both Heavy-Tailed Rewards and Data Corruption

Task-agnostic Exploration in Reinforcement Learning

NeurIPS 2020arXiv

Neural Additive Models: Interpretable Machine Learning with Neural Nets

NeurIPS 2021arXiv

Decentralized Gossip-Based Stochastic Bilevel Optimization over Communication Networks

NeurIPS 2022arXiv

Provable Defense against Backdoor Policies in Reinforcement Learning

NeurIPS 2022arXiv

Bandit Theory and Thompson Sampling-Guided Directed Evolution for Sequence Optimization

NeurIPS 2022arXiv

Learning Adversarial Low-rank Markov Decision Processes with Unknown Transition and Full-information Feedback

NeurIPS 2023arXiv