Yujun Shen

39

Papers

795

Total Citations

Papers (39)

GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following

Language-Image Pre-training with Long Captions

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

SAM-guided Graph Cut for 3D Instance Segmentation

MagicQuill: An Intelligent Interactive Image Editing System

LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis

Lipschitz Singularities in Diffusion Models

Prometheus: 3D-Aware Latent Diffusion Models for Feed-Forward Text-to-3D Scene Generation

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning

EnvGS: Modeling View-Dependent Appearance with Environment Gaussian

Mimir: Improving Video Diffusion Models for Precise Text Understanding

Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis

NEAT: Distilling 3D Wireframes from Neural Attraction Fields

Rectified Diffusion Guidance for Conditional Generation

PlanarSplatting: Accurate Planar Surface Reconstruction in 3 Minutes

Towards More Accurate Diffusion Model Acceleration with A Timestep Tuner

Contextual AD Narration with Interleaved Multimodal Sequence

BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D Scene Generation

Learning Visual Generative Priors without Text

Neural Shell Texture Splatting: More Details and Fewer Primitives

BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation

ScaleLSD: Scalable Deep Line Segment Detection Streamlined

SMaRt: Improving GANs with Score Matching Regularity

AvatarArtist: Open-Domain 4D Avatarization

MangaNinja: Line Art Colorization with Precise Reference Following

AniDoc: Animation Creation Made Easier

DiffDoctor: Diagnosing Image Diffusion Models Before Treating

ReTracker: Exploring Image Matching for Robust Online Any Point Tracking

SpatialTrackerV2: Advancing 3D Point Tracking with Explicit Camera Motion

Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models

Edicho: Consistent Image Editing in the Wild

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

AnyDoor: Zero-shot Object-level Image Customization

SpatialTracker: Tracking Any 2D Pixels in 3D Space

4K4D: Real-Time 4D View Synthesis at 4K Resolution

CCM: Real-Time Controllable Visual Content Creation Using Text-to-Image Consistency Models

Learning Temporally Consistent Video Depth from Video Diffusion Priors