Haipeng Luo

38

Papers

775

Total Citations

Papers (38)

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

Efficient Second Order Online Learning by Sketching

NeurIPS 2016arXiv

Improved Regret Bounds for Oracle-Based Adversarial Contextual Bandits

NeurIPS 2016arXiv

Contextual Linear Bandits with Delay as Payoff

Improved Bounds for Swap Multicalibration and Swap Omniprediction

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

Online Gradient Boosting

Fast Convergence of Regularized Learning in Games

Bidirectional Cross-Modal Knowledge Exploration for Video Recognition With Pre-Trained Vision-Language Models

Efficient Contextual Bandits with Uninformed Feedback Graphs

ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback

Improved Regret and Contextual Linear Extension for Pandora's Box and Prophet Inequality

NeurIPS 2025arXiv

Follow-the-Perturbed-Leader for Adversarial Markov Decision Processes with Bandit Feedback

Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback

Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary Environments

Near-Optimal No-Regret Learning Dynamics for General Convex Games

Practical Contextual Bandits with Feedback Graphs

Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms

Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games with Bandit Feedback

No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions

Regret Matching+: (In)Stability and Fast Convergence in Games

Optimal and Adaptive Algorithms for Online Boosting

Variance-Reduced and Projection-Free Stochastic Optimization

Practical Contextual Bandits with Regression Oracles

Beating Stochastic and Adversarial Semi-bandits Optimally and Simultaneously

Efficient Online Portfolio with Logarithmic Regret

Hypothesis Set Stability and Generalization

Equipping Experts/Bandits with Long-term Memory

Model Selection for Contextual Bandits

Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs

Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition

Comparator-Adaptive Convex Bandits

Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path

Last-iterate Convergence in Extensive-Form Games

The best of both worlds: stochastic and adversarial episodic MDPs with unknown transition

Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses

Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games