Sergey Tulyakov

28

Papers

983

Total Citations

Papers (28)

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling

VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control

AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Wonderland: Navigating 3D Scenes from a Single Image

Multi-subject Open-set Personalization in Video Generation

SceneTex: High-Quality Texture Synthesis for Indoor Scenes via Diffusion Priors

Improving the Diffusability of Autoencoders

Scalable Ranked Preference Optimization for Text-to-Image Generation

SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device

4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

Video Motion Transfer with Diffusion Transformers

MaskControl: Spatio-Temporal Control for Masked Motion Synthesis

DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models

Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach

Efficient Training with Denoised Neural Weights

Can Text-to-Video Generation help Video-Language Alignment?

AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation

SPAD: Spatially Aware Multi-View Diffusers

Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

TextCraftor: Your Text Encoder Can be Image Quality Controller

T2Bs: Text-to-Character Blendshapes via Video Generation

Towards Text-guided 3D Scene Composition

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

Omni-ID: Holistic Identity Representation Designed for Generative Tasks

SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

Mind the Time: Temporally-Controlled Multi-Event Video Generation

E$^2$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation