Haoyu Cao

4

Papers

38

Total Citations

Papers (4)

Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models

HRVDA: High-Resolution Visual Document Assistant

Attention Where It Matters: Rethinking Visual Document Understanding with Selective Region Concentration