Xiangyu Yue

19

Papers

345

Total Citations

Papers (19)

Video-R1: Reinforcing Video Reasoning in MLLMs

NeurIPS 2025arXiv

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

Unleashing Vecset Diffusion Model for Fast Shape Generation

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

From Easy to Hard: Progressive Active Learning Framework for Infrared Small Target Detection with Single Point Supervision

SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data

Training Matting Models Without Alpha Labels

FairGen: Enhancing Fairness in Text-to-Image Diffusion Models via Self-Discovering Latent Directions

Breaking the Encoder Barrier for Seamless Video-Language Understanding

CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation

HypDAE: Hyperbolic Diffusion Autoencoders for Hierarchical Few-shot Image Generation

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio Video Point Cloud Time-Series and Image Recognition

Chimera: Improving Generalist Model with Domain-Specific Experts

OneLLM: One Framework to Align All Modalities with Language

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines

Learning Beyond Still Frames: Scaling Vision-Language Models with Video

Scaling Omni-modal Pretraining with Multimodal Context: Advancing Universal Representation Learning Across Modalities