Tian Xu

4

Papers

47

Total Citations

Papers (4)

Preserving Diversity in Supervised Fine-Tuning of Large Language Models

Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning

Limited Preference Aided Imitation Learning from Imperfect Demonstrations

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models