Yuxin Guo

7

Papers

28

Total Citations

Papers (7)

UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving

GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers

Aligned Better, Listen Better for Audio-Visual Large Language Models

MaskGWM: A Generalizable Driving World Model with Video Mask Reconstruction

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training

On the Nonlinearity of Layer Normalization

Dual Mean-Teacher: An Unbiased Semi-Supervised Framework for Audio-Visual Source Localization