Siyang Sun

4

Papers

38

Total Citations

Papers (4)

Relevant Intrinsic Feature Enhancement Network for Few-Shot Semantic Segmentation

Aligned Better, Listen Better for Audio-Visual Large Language Models

FuseTeacher: Modality-fused Encoders are Strong Vision Supervisors

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training