Hang Zhang

7

Papers

515

Total Citations

Papers (7)

Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

MaskPLAN: Masked Generative Layout Planning from Partial Input

Temporal-aware Query Routing for Real-time Video Instance Segmentation

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Breaking the Memory Barrier of Contrastive Loss via Tile-Based Strategy