Aviral Kumar

22

Papers

117

Total Citations

Papers (22)

Scaling Test-Time Compute Without Verification or RL is Suboptimal

Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

Conservative Data Sharing for Multi-Task Offline Reinforcement Learning

Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability

COMBO: Conservative Offline Model-Based Policy Optimization

Data-Driven Offline Decision-Making via Invariant Representation Learning

DASCO: Dual-Generator Adversarial Support Constrained Offline Reinforcement Learning

Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets

ReDS: Offline RL With Heteroskedastic Datasets via Support Constraints

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings

Diagnosing Bottlenecks in Deep Q-learning Algorithms

Graph Normalizing Flows

Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction

Conservative Q-Learning for Offline Reinforcement Learning

Model Inversion Networks for Model-Based Optimization

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL