Shentong Mo

7

Papers

49

Total Citations

Papers (7)

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation

Audio-visual Generalized Zero-shot Learning the Easy Way

Scaling Diffusion Mamba with Bidirectional SSMs for Efficient 3D Shape Generation

The Dynamic Duo of Collaborative Masking and Target for Advanced Masked Autoencoder Learning

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

GMAIL: Generative Modality Alignment for generated Image Learning