Shihan Dou

4

Papers

3

Total Citations

Papers (4)

EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving

Alleviating Shifted Distribution in Human Preference Alignment through Meta-Learning

Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback

Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning