Haiyang Xu

12

Papers

759

Total Citations

Papers (12)

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

Hallucination Augmented Contrastive Learning for Multimodal Large Language Model

Bayesian Diffusion Models for 3D Shape Reconstruction

SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

TiMix: Text-Aware Image Mixing for Effective Vision-Language Pre-training

YOLO-Count: Differentiable Object Counting for Text-to-Image Generation

DepR: Depth Guided Single-view Scene Reconstruction with Instance-level Diffusion

Science-T2I: Addressing Scientific Illusions in Image Synthesis

EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

Learning Trajectory-Word Alignments for Video-Language Tasks

BUS: Efficient and Effective Vision-Language Pre-Training with Bottom-Up Patch Summarization.