Xing Sun

Google Scholar OpenReview

13

Papers

2,248

Total Citations

1

h-index

1

Affiliations

Affiliations

Tencent

Papers (13)

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

SPD-DDPM: Denoising Diffusion Probabilistic Models in the Symmetric Positive Definite Space

Grab What You Need: Rethinking Complex Table Structure Recognition with Flexible Components Deliberation

HRVDA: High-Resolution Visual Document Assistant

Aligning and Prompting Everything All at Once for Universal Visual Perception

DS-VLM: Diffusion Supervision Vision Language Model

Probability-Density-aware Semi-supervised Learning

Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

Visual Hallucination Elevates Speech Recognition

A General and Efficient Training for Transformer via Token Expansion