Xu Li

21

Papers

424

Total Citations

Papers (21)

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

NeurIPS 2025arXiv

HiFi-123: Towards High-fidelity One Image to 3D Content Generation

Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think

NeurIPS 2025arXiv

Is Your Multimodal Language Model Oversensitive to Safe Queries?

MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO

NeurIPS 2025arXiv

NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering

NeurIPS 2025arXiv

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

NeurIPS 2025arXiv

NoT: Federated Unlearning via Weight Negation

EA-VTR: Event-Aware Video-Text Retrieval

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

ECHOPulse: ECG Controlled Echocardio-gram Video Generation

Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Who You Are Matters: Bridging Interests and Social Roles via LLM-Enhanced Logic Recommendation

Distilling Knowledge from Large-Scale Image Models for Object Detection

GMValuator: Similarity-based Data Valuation for Generative Models

See through the Dark: Learning Illumination-affined Representations for Nighttime Occupancy Prediction

NeurIPS 2025arXiv

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

NeurIPS 2025arXiv

Cue3D: Quantifying the Role of Image Cues in Single-Image 3D Generation

NeurIPS 2025arXiv

MTRec: Learning to Align with User Preferences via Mental Reward Models

NeurIPS 2025arXiv

When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions

NeurIPS 2025arXiv