Peixian Chen

6

Papers

2,102

Total Citations

Papers (6)

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

VITA-Audio: Fast Interleaved Audio-Text Token Generation for Efficient Large Speech-Language Model

Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation

Aligning and Prompting Everything All at Once for Universal Visual Perception