Shentong Mo

16

Papers

42

Total Citations

Papers (16)

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

Audio-visual Generalized Zero-shot Learning the Easy Way

Scaling Diffusion Mamba with Bidirectional SSMs for Efficient 3D Shape Generation

The Dynamic Duo of Collaborative Masking and Target for Advanced Masked Autoencoder Learning

Audio-Visual Class-Incremental Learning

"Unitail: Detecting, Reading, and Matching in Retail Scene"

Localizing Visual Sounds the Easy Way

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

GMAIL: Generative Modality Alignment for generated Image Learning

Audio-Visual Grouping Network for Sound Localization From Mixtures

Class-Incremental Grouping Network for Continual Audio-Visual Learning

Multi-modal Grouping Network for Weakly-Supervised Audio-Visual Video Parsing

A Closer Look at Weakly-Supervised Audio-Visual Source Localization

Weakly-Supervised Audio-Visual Segmentation

DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation

DiffComplete: Diffusion-based Generative 3D Shape Completion