Xiawu Zheng

36

Papers

2,290

Total Citations

Papers (36)

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

NeurIPS 2025arXiv

AffineQuant: Affine Transformation Quantization for Large Language Models

Bilateral Event Mining and Complementary for Event Stream Super-Resolution

Feature Denoising Diffusion Model for Blind Image Quality Assessment

Multimodal Quantitative Language for Generative Recommendation

Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective

From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning

Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models

Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation

Outlier-aware Slicing for Post-Training Quantization in Vision Transformer

Integrating Global Context Contrast and Local Sensitivity for Blind Image Quality Assessment

Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity

Rethinking Performance Estimation in Neural Architecture Search

Neural Architecture Search With Representation Mutual Information

Training-Free Transformer Architecture Search

Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective

Meta Architecture for Point Cloud Analysis

Out-of-Distributed Semantic Pruning for Robust Semi-Supervised Learning

Multinomial Distribution Learning for Effective Neural Architecture Search

EC-DARTS: Inducing Equalized and Consistent Optimization Into DARTS

AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model Acceleration

Automatic Network Pruning via Hilbert-Schmidt Independence Criterion Lasso under Information Bottleneck Principle

PAMS: Quantized Super-Resolution via Parameterized Max Scale

Distilling Spatially-Heterogeneous Distortion Perception for Blind Image Quality Assessment

AllGCD: Leveraging All Unlabeled Data for Generalized Category Discovery

Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

Aligning Instance Brownian Bridge with Texts for Open-Vocabulary Video Instance Segmentation

Dynamic Clustering Convolutional Neural Network

Semi-supervised Blind Image Quality Assessment through Knowledge Distillation and Incremental Learning

GraCo: Granularity-Controllable Interactive Segmentation

Solving the Catastrophic Forgetting Problem in Generalized Category Discovery

RepAn: Enhanced Annealing through Re-parameterization

polybasic Speculative Decoding Through a Theoretical Perspective

Discover and Align Taxonomic Context Priors for Open-world Semi-Supervised Learning