Shizhe Diao

3

Papers

121

Total Citations

Papers (3)

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models

Towards Unifying Medical Vision-and-Language Pre-Training via Soft Prompts