Yiyuan Zhang

10

Papers

43

Total Citations

Papers (10)

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

Breaking the Encoder Barrier for Seamless Video-Language Understanding

MUG: Pseudo Labeling Augmented Audio-Visual Mamba Network for Audio-Visual Video Parsing

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio Video Point Cloud Time-Series and Image Recognition

FairGen: Enhancing Fairness in Text-to-Image Diffusion Models via Self-Discovering Latent Directions

Modality Synergy Complement Learning with Cascaded Aggregation for Visible-Infrared Person Re-identification

Learning Beyond Still Frames: Scaling Vision-Language Models with Video

Scaling Omni-modal Pretraining with Multimodal Context: Advancing Universal Representation Learning Across Modalities

OneLLM: One Framework to Align All Modalities with Language