Yadong Mu

26

Papers

31

Total Citations

Papers (26)

PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images

Transferable Video Moment Localization by Moment-Guided Query Prompting

Exploring Orthogonality in Open World Object Detection

Ink Dot-Oriented Differentiable Optimization for Neural Image Halftoning

Countering Personalized Text-to-Image Generation with Influence Watermarks

Learning Solution-Aware Transformers for Efficiently Solving Quadratic Assignment Problem

Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization

Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization

Weakly-Supervised Action Localization by Generative Attention Modeling

Non-Local Neural Networks With Grouped Bilinear Attentional Transforms

Beyond Short-Term Snippet: Video Relation Detection With Spatio-Temporal Global Context

Learning Temporal Co-Attention Models for Unsupervised Video Action Localization

Visual-Semantic Matching by Exploring High-Order Attention and Distraction

Joint Video Summarization and Moment Localization by Cross-Task Sample Transfer

Complex Video Action Reasoning via Learnable Markov Logic Network

Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-Commerce

Neural Koopman Pooling: Control-Inspired Temporal Dynamics Encoding for Skeleton-Based Action Recognition

Regularizing Second-Order Influences for Continual Learning

Video Action Segmentation via Contextually Refined Temporal Keypoints

NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation

Granularity-Adaptive Spatial Evidence Tokenization for Video Question Answering

Fast Fourier Convolution

Conditional Diffusion Process for Inverse Halftoning

Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding

Rewiring Neurons in Non-Stationary Environments