Xu Li

17

Papers

391

Total Citations

Papers (17)

OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

NeurIPS 2025arXiv

HiFi-123: Towards High-fidelity One Image to 3D Content Generation

Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think

NeurIPS 2025arXiv

Is Your Multimodal Language Model Oversensitive to Safe Queries?

NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering

NeurIPS 2025arXiv

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

NeurIPS 2025arXiv

NoT: Federated Unlearning via Weight Negation

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Who You Are Matters: Bridging Interests and Social Roles via LLM-Enhanced Logic Recommendation

GMValuator: Similarity-based Data Valuation for Generative Models

See through the Dark: Learning Illumination-affined Representations for Nighttime Occupancy Prediction

NeurIPS 2025arXiv

Cue3D: Quantifying the Role of Image Cues in Single-Image 3D Generation

NeurIPS 2025arXiv

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

NeurIPS 2025arXiv

MTRec: Learning to Align with User Preferences via Mental Reward Models

NeurIPS 2025arXiv

When One Moment Isn't Enough: Multi-Moment Retrieval with Cross-Moment Interactions

NeurIPS 2025arXiv