Mengdan Zhang

Google Scholar OpenReview

6

Papers

2,119

Total Citations

6

h-index

Papers (6)

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

Raindrop Clarity: A Dual-Focused Dataset for Day and Night Raindrop Removal

VITA-Audio: Fast Interleaved Audio-Text Token Generation for Efficient Large Speech-Language Model

Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

Aligning and Prompting Everything All at Once for Universal Visual Perception