Shiguang Shan

16

Papers

212

Total Citations

Papers (16)

Autoregressive Video Generation without Vector Quantization

HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention

Tokenize Anything via Prompting

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

An Information Theoretical View for Out-Of-Distribution Detection

Benchmarking Multimodal Large Language Models Against Image Corruptions

HIS-GPT: Towards 3D Human-In-Scene Multimodal Understanding

Feature Decomposition-Recomposition in Large Vision-Language Model for Few-Shot Class-Incremental Learning

Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness

ES³: Evolving Self-Supervised Learning of Robust Audio-Visual Speech Representations

Face Forgery Video Detection via Temporal Forgery Cue Unraveling

Video Harmonization with Triplet Spatio-Temporal Variation Patterns

Not Only Vision: Evolve Visual Speech Recognition via Peripheral Information

EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models

CogCM: Cognition-Inspired Contextual Modeling for Audio-Visual Speech Enhancement

G2PDiffusion: Cross-species Genotype-to-Phenotype Prediction via Evolutionary Diffusion