Lihong Li

4

Papers

0

Total Citations

Papers (4)

Ask a Strong LLM Judge when Your Reward Model is Uncertain

NeurIPS 2025arXiv

Off-Policy Evaluation via the Regularized Lagrangian

NeurIPS 2020arXiv

CoinDICE: Off-Policy Confidence Interval Estimation

NeurIPS 2020arXiv

Escaping the Gravitational Pull of Softmax