Xiangyu Yue

30

Papers

322

Total Citations

Papers (30)

Video-R1: Reinforcing Video Reasoning in MLLMs

NeurIPS 2025arXiv

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

RAP: Retrieval-Augmented Personalization for Multimodal Large Language Models

SemGeoMo: Dynamic Contextual Human Motion Generation with Semantic and Geometric Guidance

SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data

Training Matting Models Without Alpha Labels

Breaking the Encoder Barrier for Seamless Video-Language Understanding

CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation

HypDAE: Hyperbolic Diffusion Autoencoders for Hierarchical Few-shot Image Generation

From Easy to Hard: Progressive Active Learning Framework for Infrared Small Target Detection with Single Point Supervision

Scaling Omni-modal Pretraining with Multimodal Context: Advancing Universal Representation Learning Across Modalities

Unleashing Vecset Diffusion Model for Fast Shape Generation

Chimera: Improving Generalist Model with Domain-Specific Experts

OneLLM: One Framework to Align All Modalities with Language

UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines

Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions

PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation

Prototypical Cross-Domain Self-Supervised Learning for Few-Shot Unsupervised Domain Adaptation

Domain Randomization and Pyramid Consistency: Simulation-to-Real Generalization Without Accessing Target Domain Data

Unsupervised Point Cloud Pre-Training via Occlusion Completion

Space Engage: Collaborative Space Supervision for Contrastive-Based Semi-Supervised Semantic Segmentation

Preventing Zero-Shot Transfer Degradation in Continual Learning of Vision-Language Models

Beating Backdoor Attack at Its Own Game

RankSeg: Adaptive Pixel Classification with Image Category Ranking for Segmentation

Image2Point: 3D Point-Cloud Understanding with 2D Image Pretrained Models

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio Video Point Cloud Time-Series and Image Recognition

FairGen: Enhancing Fairness in Text-to-Image Diffusion Models via Self-Discovering Latent Directions

Learning Beyond Still Frames: Scaling Vision-Language Models with Video

Multi-source Domain Adaptation for Semantic Segmentation