Di Zhang

6

Papers

152

Total Citations

Papers (6)

Improving Video Generation with Human Feedback

Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning

OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers

MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding

ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area

CERTAIN: Context Uncertainty-aware One-Shot Adaptation for Context-based Offline Meta Reinforcement Learning