Yu-Gang Jiang

28

Papers

659

Total Citations

Papers (28)

NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving

SimDA: Simple Diffusion Adapter for Efficient Video Generation

Adversarial Prompt Tuning for Vision-Language Models

CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation

OmniViD: A Generative Framework for Universal Video Understanding

Doubly Abductive Counterfactual Inference for Text-based Image Editing

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

MotionFollower: Editing Video Motion via Score-Guided Diffusion

PromptFusion: Decoupling Stability and Plasticity for Continual Learning

AdaDiff: Adaptive Step Selection for Fast Diffusion Models

LRANet: Towards Accurate and Efficient Scene Text Detection with Low-Rank Approximation

BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks

Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image

DuMo: Dual Encoder Modulation Network for Precise Concept Erasure

Out of Length Text Recognition with Sub-String Matching

Learning to Rank Patches for Unbiased Image Redundancy Reduction

REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

AIM: Additional Image Guided Generation of Transferable Adversarial Attacks

FaceA-Net: Facial Attribute-Driven ID Preserving Image Generation Network

From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning

Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning

MotionEditor: Editing Video Motion via Content-Aware Diffusion

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

Comprehensive Multi-Modal Prototypes Are Simple and Effective Classifiers for Vast-Vocabulary Object Detection

Instance-Aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning