Baining Guo

25

Papers

97

Total Citations

Papers (25)

CCEdit: Creative and Controllable Video Editing via Diffusion Models

ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation

Improved Noise Schedule for Diffusion Training

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks

MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting

Face X-Ray for More General Face Forgery Detection

Learning Texture Transformer Network for Image Super-Resolution

StyleSwin: Transformer-Based GAN for High-Resolution Image Generation

Swin Transformer V2: Scaling Up Capacity and Resolution

CSWin Transformer: A General Vision Transformer Backbone With Cross-Shaped Windows

Vector Quantized Diffusion Model for Text-to-Image Synthesis

Protecting Celebrities From DeepFake With Identity Consistency Transformer

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition

Unsupervised Extraction of Video Highlights Via Robust Recurrent Auto-Encoders

Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows

Efficient Diffusion Training via Min-SNR Weighting Strategy

Adaptive Frequency Filters As Efficient Global Token Mixers

Improving CLIP Fine-tuning Performance

Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

Compressing Neural Networks using the Variational Information Bottleneck