Yapeng Tian

25

Papers

12

Total Citations

Papers (25)

VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation

Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level

PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization

ZFusion: Efficient Deep Compositional Zero-shot Learning for Blind Image Super-Resolution with Generative Diffusion Prior

T-VSL: Text-Guided Visual Sound Source Localization in Mixtures

Residual Dense Network for Image Super-Resolution

Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution

TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution

Can Audio-Visual Integration Strengthen Robustness Under Multimodal Attacks?

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

Transformer-Empowered Multi-Scale Contextual Matching and Aggregation for Multi-Contrast MRI Super-Resolution

Learning To Answer Questions in Dynamic Audio-Visual Scenarios

Structured Sparsity Learning for Efficient Video Super-Resolution

Egocentric Audio-Visual Object Localization

Audio-Visual Grouping Network for Sound Localization From Mixtures

CFSNet: Toward a Controllable Feature Space for Image Restoration

Video Matting via Consistency-Regularized Graph Neural Networks

DiffIR: Efficient Diffusion Model for Image Restoration

Class-Incremental Grouping Network for Continual Audio-Visual Learning

Audio-Visual Class-Incremental Learning

Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing

Learning Spatio-Temporal Downsampling for Effective Video Upscaling

Multi-modal Grouping Network for Weakly-Supervised Audio-Visual Video Parsing

Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis