Yu-Gang Jiang

69

Papers

654

Total Citations

Papers (69)

NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving

SimDA: Simple Diffusion Adapter for Efficient Video Generation

Adversarial Prompt Tuning for Vision-Language Models

CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation

OmniViD: A Generative Framework for Universal Video Understanding

Doubly Abductive Counterfactual Inference for Text-based Image Editing

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

MotionFollower: Editing Video Motion via Score-Guided Diffusion

PromptFusion: Decoupling Stability and Plasticity for Continual Learning

AdaDiff: Adaptive Step Selection for Fast Diffusion Models

LRANet: Towards Accurate and Efficient Scene Text Detection with Low-Rank Approximation

BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks

Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image

Out of Length Text Recognition with Sub-String Matching

DuMo: Dual Encoder Modulation Network for Precise Concept Erasure

Learning to Rank Patches for Unbiased Image Redundancy Reduction

REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents

AIM: Additional Image Guided Generation of Transferable Adversarial Attacks

FaceA-Net: Facial Attribute-Driven ID Preserving Image Generation Network

Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning

From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning

Unlearnable Clusters: Towards Label-Agnostic Unlearnable Examples

ResFormer: Scaling ViTs With Multi-Resolution Training

SVFormer: Semi-Supervised Video Transformer for Action Recognition

Look Before You Match: Instance Understanding Matters in Video Object Segmentation

Masked Video Distillation: Rethinking Masked Feature Modeling for Self-Supervised Video Representation Learning

Bi-Directional Feature Fusion Generative Adversarial Network for Ultra-High Resolution Pathological Image Virtual Re-Staining

Enhancing the Self-Universality for Transferable Targeted Attacks

Prototypical Residual Networks for Anomaly Detection and Localization

MSMDFusion: Fusing LiDAR and Camera at Multiple Scales With Multi-Depth Seeds for 3D Object Detection

StyleAdv: Meta Style Adversarial Training for Cross-Domain Few-Shot Learning

Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding

Multi-Scale Deep Learning Architectures for Person Re-Identification

Revisiting Adversarial Robustness Distillation: Robust Soft Labels Make Student Better

Motion Guided Region Message Passing for Video Captioning

VideoLT: Large-Scale Long-Tailed Video Recognition

Implicit Temporal Modeling with Learnable Alignment for Video Recognition

MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition

Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

Hierarchical Visual-Textual Graph for Temporal Activity Localization via Language

Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors

Semi-Supervised Vision Transformers

Efficient Video Transformers with Spatial-Temporal Token Selection

MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes

DSOD: Learning Deeply Supervised Object Detectors From Scratch

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

Comprehensive Multi-Modal Prototypes Are Simple and Effective Classifiers for Vast-Vocabulary Object Detection

Instance-Aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning

MotionEditor: Editing Video Motion via Content-Aware Diffusion

Harnessing Object and Scene Semantics for Large-Scale Video Understanding

Weakly Supervised Dense Video Captioning

Dual Skipping Networks

Hyperbolic Visual Embedding Learning for Zero-Shot Recognition

Sketch-BERT: Learning Sketch Bidirectional Encoder Representation From Transformers by Self-Supervised Learning of Sketch Gestalt

FM2u-Net: Face Morphological Multi-Branch Network for Makeup-Invariant Face Verification

Clean-Label Backdoor Attacks on Video Recognition Models

Towards Bridging Event Captioner and Sentence Localizer for Weakly Supervised Dense Event Captioning

Balanced Contrastive Learning for Long-Tailed Visual Recognition

Cross-Modal Transferable Adversarial Attacks From Images to Videos

BEVT: BERT Pretraining of Video Transformers

ObjectFormer for Image Manipulation Detection and Localization

AdaViT: Adaptive Vision Transformers for Efficient Image Recognition

LiteEval: A Coarse-to-Fine Framework for Resource Efficient Video Recognition

OmniVL: One Foundation Model for Image-Language and Video-Language Tasks

Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation

Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection