Ziyang Chen

15

Papers

321

Total Citations

Papers (15)

Binding Touch to Everything: Learning Unified Multimodal Tactile Representations

MoCha-Stereo: Motif Channel Attention Network for Stereo Matching

Continual Self-supervised Learning: Towards Universal Multi-modal Medical Data Representation Learning

Video-Guided Foley Sound Generation with Multimodal Controls

Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark

Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding

GPS as a Control Signal for Image Generation

Mix and Localize: Localizing Sound Sources in Mixtures

Self-Supervised Video Forensics by Audio-Visual Anomaly Detection

Conditional Generation of Audio From Video via Foley Analogies

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation

Gradient Alignment Improves Test-Time Adaptation for Medical Image Segmentation

Sound Localization by Self-Supervised Time Delay Estimation

Supervising Sound Localization by In-the-wild Egomotion

Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation