Archit Sharma

7

Papers

15

Total Citations

Papers (7)

Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval

RLVF: Learning from Verbal Feedback without Overgeneralization

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data

Autonomous Reinforcement Learning via Subgoal Curricula

You Only Live Once: Single-Life Reinforcement Learning

When to Ask for Help: Proactive Interventions in Autonomous Reinforcement Learning

Direct Preference Optimization: Your Language Model is Secretly a Reward Model