Shiguang Shan

74

Papers

177

Total Citations

Papers (74)

Autoregressive Video Generation without Vector Quantization

HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

An Information Theoretical View for Out-Of-Distribution Detection

G2PDiffusion: Cross-species Genotype-to-Phenotype Prediction via Evolutionary Diffusion

Benchmarking Multimodal Large Language Models Against Image Corruptions

HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding

Feature Decomposition-Recomposition in Large Vision-Language Model for Few-Shot Class-Incremental Learning

Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness

ES³: Evolving Self-Supervised Learning of Robust Audio-Visual Speech Representations

Video Harmonization with Triplet Spatio-Temporal Variation Patterns

Projection Metric Learning on Grassmann Manifold With Application to Video Based Face Recognition

Shape Driven Kernel Adaptation in Convolutional Neural Network for Robust Facial Traits Recognition

Discriminant Analysis on Riemannian Manifold of Gaussian Distributions for Face Recognition With Image Sets

Face Video Retrieval With Image Query via Hashing Across Euclidean Space and Riemannian Manifold

Deep Supervised Hashing for Fast Image Retrieval

Occlusion-Free Face Alignment: Deep Regression Networks Coupled With De-Corrupt AutoEncoders

Multi-View Deep Network for Cross-View Classification

Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks

Discriminative Covariance Oriented Representation Learning for Face Recognition With Image Sets

Duplex Generative Adversarial Network for Unsupervised Domain Adaptation

Real-Time Rotation-Invariant Face Detection With Progressive Calibration Networks

Mean-Variance Loss for Deep Age Estimation From a Face

Structure Inference Net: Object Detection Using Scene-Level Context and Instance-Level Relationships

VRSTC: Occlusion-Free Video Person Re-Identification

Exploring Context and Visual Pattern of Relationship for Scene Graph Generation

Fully Learnable Group Convolution for Acceleration of Deep Neural Networks

Interaction-And-Aggregation Network for Person Re-Identification

Self-Supervised Representation Learning From Videos for Facial Action Unit Detection

Weakly Supervised Image Classification Through Noise Regularization

Local Relationship Learning With Person-Specific Shape Regularization for Facial Action Unit Detection

Unsupervised Domain Adaptation With Hierarchical Gradient Synchronization

Cross-Domain Face Presentation Attack Detection via Multi-Domain Disentangled Representation Learning

Single-Side Domain Generalization for Face Anti-Spoofing

Self-Supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

TCTS: A Task-Consistent Two-Stage Framework for Person Search

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text

BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification

Clothes-Changing Person Re-Identification With RGB Modality Only

Enhancing Face Recognition With Self-Supervised 3D Reconstruction

DISC: Learning From Noisy Labels via Dynamic Instance-Specific Selection and Correction

Source-Free Adaptive Gaze Estimation by Uncertainty Reduction

Diversity-Measurable Anomaly Detection

A Unified Multiplicative Framework for Attribute Learning

Leveraging Datasets With Varying Annotations for Face Alignment via Deep Regression Network

Two Birds, One Stone: Jointly Learning Binary Code for Large-Scale Face Image Retrieval and Attributes Prediction

Bi-Shifting Auto-Encoder for Unsupervised Domain Adaptation

Recursive Spatial Transformer (ReST) for Alignment-Free Face Recognition

Learning Discriminative Latent Attributes for Zero-Shot Classification

S2GAN: Share Aging Factors Across Ages and Share Aging Trends Among Individuals

Temporal Knowledge Propagation for Image-to-Video Person Re-Identification

Face Forgery Video Detection via Temporal Forgery Cue Unraveling

Transferable Contrastive Network for Generalized Zero-Shot Learning

Meta Gradient Adversarial Attack

EigenGAN: Layer-Wise Eigen-Learning for GANs

Cross-Encoder for Unsupervised Gaze Representation Learning

DandelionNet: Domain Composition with Instance Adaptive Classification for Domain Generalization

Holistic Label Correction for Noisy Multi-Label Classification

Video-based Remote Physiological Measurement via Cross-verified Feature Disentangling

Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation

Temporal Complementary Learning for Video Person Re-Identification

Adaptive Image Transformations for Transfer-Based Adversarial Attack

GAN with Multivariate Disentangling for Controllable Hair Editing

Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework

Weakly Supervised Object Detection With Segmentation Collaboration

Not Only Vision: Evolve Visual Speech Recognition via Peripheral Information

EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models

CogCM: Cognition-Inspired Contextual Modeling for Audio-Visual Speech Enhancement

Cross Attention Network for Few-shot Classification

Multi-label Co-regularization for Semi-supervised Facial Action Unit Recognition

Optimal Positive Generation via Latent Transformation for Contrastive Learning

Understanding Few-Shot Learning: Measuring Task Relatedness and Adaptation Difficulty via Attributes

Generalized Semi-Supervised Learning via Self-Supervised Feature Adaptation

Log-Euclidean Metric Learning on Symmetric Positive Definite Manifold with Application to Image Set Classification