Rui Zheng

4

Papers

0

Total Citations

Papers (4)

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Models

Alleviating Shifted Distribution in Human Preference Alignment through Meta-Learning

Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback

Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning