Aviral Kumar

6

Papers

117

Total Citations

Papers (6)

Scaling Test-Time Compute Without Verification or RL is Suboptimal

Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data