Yan Song

6

Papers

73

Total Citations

Papers (6)

ReMA: Learning to Meta-Think for LLMs with Multi-agent Reinforcement Learning

NeurIPS 2025arXiv

Efficient Reinforcement Learning with Large Language Model Priors

ThinkBench: Dynamic Out-of-Distribution Evaluation for Robust LLM Reasoning

NeurIPS 2025arXiv

Reinforcement Learning from Imperfect Corrective Actions and Proxy Rewards

Agreement aware and dissimilarity oriented GLOM

Bootstrapping Large Language Models for Radiology Report Generation