Haoyu Cao

4

Papers

55

Total Citations

Papers (4)

Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

VITA-Audio: Fast Interleaved Audio-Text Token Generation for Efficient Large Speech-Language Model

BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models

HRVDA: High-Resolution Visual Document Assistant