XIAOJUAN QI

4

Papers

45

Total Citations

Papers (4)

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

NeurIPS 2025arXiv

SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation

EA-VTR: Event-Aware Video-Text Retrieval