Chen-Wei Xie

7

Papers

47

Total Citations

Papers (7)

Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models

UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface

NeurIPS 2025arXiv

Aligned Better, Listen Better for Audio-Visual Large Language Models

Learning Visual Generative Priors without Text

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs

CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness

DynImg: Key Frames with Visual Prompts are Good Representation for Multi-Modal Video Understanding