Chenjia Bai

12

Papers

68

Total Citations

Papers (12)

Online Preference Alignment for Language Models via Count-based Exploration

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

NeurIPS 2025arXiv

OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments

Radiology Report Generation via Multi-objective Preference Optimization

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies

Task-Agnostic Pre-training and Task-Guided Fine-tuning for Versatile Diffusion Planner

Information-Theoretic Reward Decomposition for Generalizable RLHF

Constrained Ensemble Exploration for Unsupervised Skill Discovery

Cross-Domain Policy Adaptation by Capturing Representation Mismatch

Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning

How Does Goal Relabeling Improve Sample Efficiency?

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation