Zuxuan Wu

23

Papers

350

Total Citations

Papers (23)

SimDA: Simple Diffusion Adapter for Efficient Video Generation

StableAnimator: High-Quality Identity-Preserving Human Image Animation

CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation

OmniViD: A Generative Framework for Universal Video Understanding

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

MotionFollower: Editing Video Motion via Score-Guided Diffusion

PromptFusion: Decoupling Stability and Plasticity for Continual Learning

AdaDiff: Adaptive Step Selection for Fast Diffusion Models

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation

Learning to Rank Patches for Unbiased Image Redundancy Reduction

REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents

Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning

MotionEditor: Editing Video Motion via Content-Aware Diffusion

BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers

VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks

Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis

Hydra-NeXt: Robust Closed-Loop Driving with Open-Loop Training

Comprehensive Multi-Modal Prototypes Are Simple and Effective Classifiers for Vast-Vocabulary Object Detection

FNIN: A Fourier Neural Operator-based Numerical Integration Network for Surface-from-gradients

FOCUS: Towards Universal Foreground Segmentation

Synthesize Diagnose and Optimize: Towards Fine-Grained Vision-Language Understanding

BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection