Xintao Wang

46

Papers

2,824

Total Citations

1

Affiliations

Affiliations

The Chinese University of Hong Kong

Papers (46)

T2I-Adapter: Learning Adapters to Dig Out More Controllable Ability for Text-to-Image Diffusion

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion

SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

Improving Video Generation with Human Feedback

DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

GameFactory: Creating New Games with Generative Interactive Videos

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

Image Conductor: Precision Control for Interactive Video Synthesis

SketchVideo: Sketch-based Video Generation and Editing

PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-wise Video Super-Resolution

Anti-Diffusion: Preventing Abuse of Modifications of Diffusion-Based Models

Towards Real-World Blind Face Restoration With Generative Facial Prior

Robust Reference-Based Super-Resolution via C2-Matching

GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution

OSRT: Omnidirectional Image Super-Resolution With Distortion-Aware Transformer

Activating More Pixels in Image Super-Resolution Transformer

Dream3D: Zero-Shot Text-to-3D Synthesis Using 3D Shape Prior and Text-to-Image Diffusion Models

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

Metric Learning Based Interactive Modulation for Real-World Super-Resolution

VQFR: Blind Face Restoration with Vector-Quantized Dictionary and Parallel Decoder

Towards Vivid and Diverse Image Colorization With Generative Color Prior

StyleMaster: Stylize Your Video with Artistic Generation and Translation

ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

FullDiT: Video Generative Foundation Models with Multimodal Control via Full Attention

CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration In the Wild

X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model

Rethinking the Objectives of Vector-Quantized Tokenizers for Image Synthesis

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

Unifying Image Processing as Visual Prompting Question Answering

Recovering Realistic Texture in Image Super-Resolution by Deep Spatial Feature Transform

Deep Network Interpolation for Continuous Imagery Effect Transition

BasicVSR: The Search for Essential Components in Video Super-Resolution and Beyond

Positional Encoding As Spatial Inductive Bias in GANs

Finding Discriminative Filters for Specific Degradations in Blind Super-Resolution

AnimeSR: Learning Real-World Super-Resolution Models for Animation Videos

Rethinking Alignment in Video Super-Resolution Transformers

Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

Inserting Anybody in Diffusion Models via Celeb Basis