Heng Tao Shen

42

Papers

87

Total Citations

Papers (42)

DePT: Decoupled Prompt Tuning

ProS: Prompting-to-simulate Generalized knowledge for Universal Cross-Domain Retrieval

ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models

TAU-106K: A New Dataset for Comprehensive Understanding of Traffic Accident

PHGC: Procedural Heterogeneous Graph Completion for Natural Language Task Verification in Egocentric Videos

CDTR: Semantic Alignment for Video Moment Retrieval Using Concept Decomposition Transformer

T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering

Weakly-Supervised Mirror Detection via Scribble Annotations

Adaptive Uncertainty-Based Learning for Text-Based Person Retrieval

ScanERU: Interactive 3D Visual Grounding Based on Embodied Reference Understanding

Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion

Ensemble Diversity Facilitates Adversarial Transferability

Supervised Discrete Hashing

Optimal Graph Learning With Partial Tags and Multiple Features for Image and Video Annotation

What's Wrong With That Object? Identifying Images of Unusual Objects by Modelling the Detection Score Distribution

Multi-Attention Network for One Shot Learning

Matrix Tri-Factorization With Manifold Regularizations for Zero-Shot Learning

Sequence-To-Sequence Domain Adaptation Network for Robust Text Image Recognition

Exact Adversarial Attack to Image Captioning via Structured Output Learning With Latent Variables

Searching for Actions on the Hyperbole

What Machines See Is Not What They Get: Fooling Scene Text Recognition Models With Adversarial Text Images

Universal Weighting Metric Learning for Cross-Modal Matching

Multi-Stage Aggregated Transformer Network for Temporal Language Localization in Videos

Fine-Grained Predicates Learning for Scene Graph Generation

Semi-Supervised Video Paragraph Grounding With Contrastive Encoder

Meta Distribution Alignment for Generalizable Person Re-Identification

Unified Multivariate Gaussian Mixture for Efficient Neural Image Compression

Multilateral Semantic Relations Modeling for Image Text Retrieval

Multivariate, Multi-Frequency and Multimodal: Rethinking Graph Neural Networks for Emotion Recognition in Conversation

Learning Semantic-Aware Knowledge Guidance for Low-Light Image Enhancement

Learning Binary Codes for Maximum Inner Product Search

Leveraging Weak Semantic Relevance for Complex Video Event Classification

Webly Supervised Fine-Grained Recognition: Benchmark Datasets and an Approach

From General to Specific: Informative Scene Graph Generation via Balance Adjustment

Part-Aware Transformer for Generalizable Person Re-identification

ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction

Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves

Patch-wise Attack for Fooling Deep Neural Network

Towards Explicit Geometry-Reflectance Collaboration for Generalized LiDAR Segmentation in Adverse Weather

CoSMIC: Continual Self-supervised Learning for Multi-Domain Medical Imaging via Conditional Mutual Information Maximization

Implicit Counterfactual Learning for Audio-Visual Segmentation

Efficient Adaptation of Pre-trained Vision Transformer underpinned by Approximately Orthogonal Fine-Tuning Strategy