Qifeng Chen

34

Papers

843

Total Citations

Papers (34)

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

DiT4Edit: Diffusion Transformer for Image Editing

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

MagicQuill: An Intelligent Interactive Image Editing System

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

SPIRE: Semantic Prompt-Driven Image Restoration

Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis

SkillMimic: Learning Basketball Interaction Skills from Demonstrations

Robust Depth Enhancement via Polarization Prompt Fusion Tuning

MagicColor: Multi-instance Sketch Colorization

Automatic Controllable Colorization via Imagination

Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection

Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving

RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors

A Diffusion Model with State Estimation for Degradation-Blind Inverse Imaging

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

MangaNinja: Line Art Colorization with Precise Reference Following

Gaussian Shell Maps for Efficient 3D Human Generation

AvatarArtist: Open-Domain 4D Avatarization

Using Left and Right Brains Together: Towards Vision and Language Planning

Edicho: Consistent Image Editing in the Wild

SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation

EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing

Instruction-based Image Editing with Planning, Reasoning, and Generation

VideoVAE+: Large Motion Video Autoencoding with Cross-modal Video VAE

Rethinking Layered Graphic Design Generation with a Top-Down Approach

Infinite-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

VideoDPO: Omni-Preference Alignment for Video Diffusion Generation

Follow-Your-Click: Open-domain Regional Image Animation via Motion Prompts

Multitarget Device-Free Localization via Cross-Domain Wi-Fi RSS Training Data and Attentional Prior Fusion