Meng Wang

35

Papers

216

Total Citations

Papers (35)

Prototypical Calibrating Ambiguous Samples for Micro-Action Recognition

Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture

EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering

Object-Aware Adaptive-Positivity Learning for Audio-Visual Question Answering

StyleTokenizer: Defining Image Style by a Single Instance for Controlling Diffusion Models

A Dual-Way Enhanced Framework from Text Matching Point of View for Multimodal Entity Linking

Learning Dynamic Tetrahedra for High-Quality Talking Head Synthesis

ASAP: Advancing Semantic Alignment Promotes Multi-Modal Manipulation Detecting and Grounding

TASAR: Transfer-based Attack on Skeletal Action Recognition

MOL-Mamba: Enhancing Molecular Representation with Structural & Electronic Insights

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models

FakeDiffer: Distributional Disparity Learning on Differentiated Reconstruction for Face Forgery Detection

Boosting Adversarial Transferability via Residual Perturbation Attack

Towards Efficient General Feature Prediction in Masked Skeleton Modeling

GT-Mean Loss: A Simple Yet Effective Solution for Brightness Mismatch in Low-Light Image Enhancement

Revisiting the Power of Prompt for Visual Tuning

Adaptive Group Personalization for Federated Mutual Transfer Learning

SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning

What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding

Vision-Language Model IP Protection via Prompt-based Learning

How Do Nonlinear Transformers Learn and Generalize in In-Context Learning?

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer

Towards Open-Vocabulary Audio-Visual Event Localization

SMoLoRA: Exploring and Defying Dual Catastrophic Forgetting in Continual Visual Instruction Tuning

DistillDrive: End-to-End Multi-Mode Autonomous Driving Distillation by Isomorphic Hetero-Source Planning Model

An Information-Theoretic Regularizer for Lossy Neural Image Compression

MMAD: Multi-label Micro-Action Detection in Videos

PhysDiff: Physiology-based Dynamicity Disentangled Diffusion Model for Remote Physiological Measurement

VLScene: Vision-Language Guidance Distillation for Camera-Based 3D Semantic Scene Completion

Thinking in Granularity: Dynamic Quantization for Image Super-Resolution by Intriguing Multi-Granularity Clues

EulerMormer: Robust Eulerian Motion Magnification via Dynamic Filtering within Transformer

KPA-Tracker: Towards Robust and Real-Time Category-Level Articulated Object 6D Pose Tracking

Data-Free Quantization via Pseudo-label Filtering

Structure Matters: Tackling the Semantic Discrepancy in Diffusion Models for Image Inpainting

A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts