Xiawu Zheng

24

Papers

2,293

Total Citations

Papers (24)

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

NeurIPS 2025arXiv

AffineQuant: Affine Transformation Quantization for Large Language Models

Bilateral Event Mining and Complementary for Event Stream Super-Resolution

Multimodal Quantitative Language for Generative Recommendation

Feature Denoising Diffusion Model for Blind Image Quality Assessment

Distilling Spatially-Heterogeneous Distortion Perception for Blind Image Quality Assessment

Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective

From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning

Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models

Outlier-aware Slicing for Post-Training Quantization in Vision Transformer

Integrating Global Context Contrast and Local Sensitivity for Blind Image Quality Assessment

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity

AllGCD: Leveraging All Unlabeled Data for Generalized Category Discovery

Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

Aligning Instance Brownian Bridge with Texts for Open-Vocabulary Video Instance Segmentation

Dynamic Clustering Convolutional Neural Network

Semi-supervised Blind Image Quality Assessment through Knowledge Distillation and Incremental Learning

GraCo: Granularity-Controllable Interactive Segmentation

Solving the Catastrophic Forgetting Problem in Generalized Category Discovery

RepAn: Enhanced Annealing through Re-parameterization

polybasic Speculative Decoding Through a Theoretical Perspective

Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation