Dan Guo

20

Papers

235

Total Citations

Papers (20)

Prototypical Calibrating Ambiguous Samples for Micro-Action Recognition

Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture

EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering

Text-Based Occluded Person Re-identification via Multi-Granularity Contrastive Consistency Learning

Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering

Dense Audio-Visual Event Localization Under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration

Discrete to Continuous: Generating Smooth Transition Poses from Sign Language Observations

Sign-IDD: Iconicity Disentangled Diffusion for Sign Language Production

Multimodal Class-aware Semantic Enhancement Network for Audio-Visual Video Parsing

ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding

AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring

MOL-Mamba: Enhancing Molecular Representation with Structural & Electronic Insights

EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering within Transformer

Moderating the Generalization of Score-based Generative Model

KPA-Tracker: Towards Robust and Real-Time Category-Level Articulated Object 6D Pose Tracking

Towards Open-Vocabulary Audio-Visual Event Localization

PhysDiff: Physiology-based Dynamicity Disentangled Diffusion Model for Remote Physiological Measurement

Patch-level Sounding Object Tracking for Audio-Visual Question Answering

Data-Free Quantization via Pseudo-label Filtering

MMAD: Multi-label Micro-Action Detection in Videos