Haipeng Luo

7

Papers

632

Total Citations

Papers (7)

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct

Contextual Linear Bandits with Delay as Payoff

Improved Bounds for Swap Multicalibration and Swap Omniprediction

Improved Regret and Contextual Linear Extension for Pandora's Box and Prophet Inequality

NeurIPS 2025arXiv

Efficient Contextual Bandits with Uninformed Feedback Graphs

ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints

Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback