XIAOJUAN QI

6

Papers

0

Total Citations

Papers (6)

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

EA-VTR: Event-Aware Video-Text Retrieval

Scaling RL to Long Videos

NeurIPS 2025arXiv

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

NeurIPS 2025arXiv

SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix