Qifeng Chen

102

Papers

828

Total Citations

Papers (102)

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos

ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

DiT4Edit: Diffusion Transformer for Image Editing

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

MagicQuill: An Intelligent Interactive Image Editing System

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

SPIRE: Semantic Prompt-Driven Image Restoration

Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis

SkillMimic: Learning Basketball Interaction Skills from Demonstrations

Robust Depth Enhancement via Polarization Prompt Fusion Tuning

Automatic Controllable Colorization via Imagination

Learning High-resolution Vector Representation from Multi-Camera Images for 3D Object Detection

RGE-GS: Reward-Guided Expansive Driving Scene Reconstruction via Diffusion Priors

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

Gaussian Shell Maps for Efficient 3D Human Generation

Using Left and Right Brains Together: Towards Vision and Language Planning

Dense Monocular Depth Estimation in Complex Dynamic Scenes

Full Flow: Optical Flow Estimation By Global Optimization Over Regular Grids

Interactive Image Segmentation With Latent Diversity

Learning to See in the Dark

Single Image Reflection Separation With Perceptual Losses

Semi-Parametric Image Synthesis

Fully Automatic Video Colorization With Self-Regularization and Diversity

Zoom to Learn, Learn to Zoom

3D Motion Decomposition for RGBD Future Dynamic Scene Synthesis

Polarized Reflection Removal With Perfect Alignment in the Wild

Depth Sensing Beyond LiDAR Range

Dynamic Hierarchical Mimicking Towards Consistent Optimization Objectives

Future Video Synthesis With Object Motion Prediction

Image Inpainting With External-Internal Learning and Monochromic Bottleneck

Invertible Image Signal Processing

Involution: Inverting the Inherence of Convolution for Visual Recognition

Robust Reflection Removal With Reflection-Free Flash-Only Cues

FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation

Neural Camera Simulators

TPCN: Temporal Point Cloud Networks for Motion Forecasting

Shape From Polarization for Complex Scenes in the Wild

FS6D: Few-Shot 6D Pose Estimation of Novel Objects

Optimizing Video Prediction via Video Frame Interpolation

High-Fidelity GAN Inversion for Image Attribute Editing

RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

MetaPortrait: Identity-Preserving Talking Head Generation With Fast Personalized Adaptation

Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space Viewpoint

Enlarging Instance-Specific and Class-Specific Information for Open-Set Action Recognition

Learning 3D-Aware Image Synthesis With Unknown Pose Distribution

Blind Video Deflickering by Neural Filtering With a Flawed Atlas

Real-Time 6K Image Rescaling With Rate-Distortion Optimization

DynaFed: Tackling Client Data Heterogeneity With Global Dynamics

High-Fidelity 3D GAN Inversion by Pseudo-Multi-View Optimization

Robust Nonrigid Registration by Convex Optimization

Photographic Image Synthesis With Cascaded Refinement Networks

Fast Image Processing With Fully-Convolutional Networks

Hiding Video in Audio via Reversible Generative Models

Seeing Motion in the Dark

Normalized Human Pose Features for Human Action Video Alignment

IICNet: A Generic Framework for Reversible Image Conversion

Embedding Novel Views in a Single JPEG Image

DRINet: A Dual-Representation Iterative Learning Network for Point Cloud Segmentation

Dual-Camera Super-Resolution With Aligned Attention Modules

Internal Video Inpainting by Implicit Long-Range Propagation

LinkGAN: Linking GAN Latents to Pixels for Controllable Image Synthesis

Randomized Quantization: A Generic Augmentation for Data Agnostic Self-supervised Learning

Bootstrap Motion Forecasting With Self-Consistent Constraints

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

Deep Reinforced Attention Learning for Quality-Aware Visual Recognition

PiP: Planning-informed Trajectory Prediction for Autonomous Driving

PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale Convolutional Layer

Fully Convolutional Networks for Continuous Sign Language Recognition

Learning to Learn Parameterized Classification Networks for Scalable Input Images

3D-Aware Indoor Scene Synthesis with Depth Priors

Optimizing Image Compression via Joint Learning with Denoising

Real-Time Neural Character Rendering with Pose-Guided Multiplane Images

Point Cloud Compression with Sibling Context and Surface Priors

Efficient Point Cloud Segmentation with Geometry-Aware Sparse Networks

Safety-Aware Motion Prediction With Unseen Vehicles for Autonomous Driving

AvatarArtist: Open-Domain 4D Avatarization

MangaNinja: Line Art Colorization with Precise Reference Following

VideoDPO: Omni-Preference Alignment for Video Diffusion Generation

Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving

Edicho: Consistent Image Editing in the Wild

SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation

EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing

Instruction-based Image Editing with Planning, Reasoning, and Generation

VideoVAE+: Large Motion Video Autoencoding with Cross-modal Video VAE

MagicColor: Multi-instance Sketch Colorization

Rethinking Layered Graphic Design Generation with a Top-Down Approach

Infinite-Canvas: Higher-Resolution Video Outpainting with Extensive Content Generation

Follow-Your-Click: Open-domain Regional Image Animation via Motion Prompts

Multitarget Device-Free Localization via Cross-Domain Wi-Fi RSS Training Data and Attentional Prior Fusion

A Diffusion Model with State Estimation for Degradation-Blind Inverse Imaging

Combinatorial Optimization with Graph Convolutional Networks and Guided Tree Search

Blind Video Temporal Consistency via Deep Video Prior

Low-Rank Subspaces in GANs

Planning for Sample Efficient Imitation Learning

Improving 3D-aware Image Synthesis with A Geometry-aware Discriminator

One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations

AniFaceGAN: Animatable 3D-Aware Face Image Generation for Video Avatars

TextDiffuser: Diffusion Models as Text Painters

4D Panoptic Scene Graph Generation