🧬Generative Models

3D Generation

Generating 3D content including NeRFs and meshes

100 papers9,322 total citations

Compare with other topics

Feb '24 — Jan '26966 papers

Top Conferences

CVPR: 51 ECCV: 26 ICLR: 12 ICCV: 6 NeurIPS: 3 AAAI: 2

Top Papers

#1

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Guanjun Wu, Taoran Yi, Jiemin Fang et al.

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen et al.

Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering

Tao Lu, Mulin Yu, Linning Xu et al.

Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting

Zeyu Yang, Hongye Yang, Zijie Pan et al.

Text-to-3D using Gaussian Splatting

Zilong Chen, Feng Wang, Yikai Wang et al.

Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields

Shijie Zhou, Haoran Chang, Sicheng Jiang et al.

SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion

Vikram Voleti, Chun-Han Yao, Mark Boss et al.

GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models

Taoran Yi, Jiemin Fang, Junjie Wang et al.

DMV3D: Denoising Multi-view Diffusion Using 3D Large Reconstruction Model

Yinghao Xu, Hao Tan, Fujun Luan et al.

CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model

Zhengyi Wang, Yikai Wang, Yifei Chen et al.

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians

Yang Liu, Chuanchen Luo, Lue Fan et al.

ECCV 2024arXiv:2404.01133

3d gaussian splattingnovel view synthesislarge-scale scene renderingreal-time rendering+3

180

citations

#12

SplattingAvatar: Realistic Real-Time Human Avatars with Mesh-Embedded Gaussian Splatting

Zhijing Shao, Wang Zhaolong, Zhuang Li et al.

GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis

Shunyuan Zheng, Boyao ZHOU, Ruizhi Shao et al.

Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting

Yunzhi Yan, Haotong Lin, Chenxu Zhou et al.

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Xuanchi Ren, Tianchang Shen, Jiahui Huang et al.

CVPR 2025arXiv:2503.03751

video generationcamera control3d consistencynovel view synthesis+4

138

citations

#16

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

CHENMING ZHU, Tai Wang, Wenwei Zhang et al.

XCube: Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

Xuanchi Ren, Jiahui Huang, Xiaohui Zeng et al.

Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models

Xianfang Zeng, Xin Chen, Zhongqi Qi et al.

FreGS: 3D Gaussian Splatting with Progressive Frequency Regularization

Jiahui Zhang, Fangneng Zhan, MUYU XU et al.

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Decoupled Video Diffusion

Wenqiang Sun, Shuo Chen, Fangfu Liu et al.

OmniRe: Omni Urban Scene Reconstruction

Ziyu Chen, Jiawei Yang, Jiahui Huang et al.

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

Yiwen Chen, Tong He, Di Huang et al.

ICLR 2025arXiv:2406.10163

mesh generationautoregressive transformers3d asset productionvq-vae+3

101

citations

#23

3D Geometry-Aware Deformable Gaussian Splatting for Dynamic View Synthesis

Zhicheng Lu, xiang guo, Le Hui et al.

Pixel-GS Density Control with Pixel-aware Gradient for 3D Gaussian Splatting

Zheng Zhang, WENBO HU, Yixing Lao et al.

Infinigen Indoors: Photorealistic Indoor Scenes using Procedural Generation

Alexander Raistrick, Lingjie Mei, Karhan Kayan et al.

NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis

Nilesh Kulkarni, Davis Rempe, Kyle Genova et al.

CG-SLAM: Efficient Dense RGB-D SLAM in a Consistent Uncertainty-aware 3D Gaussian Field

Jiarui Hu, Xianhao Chen, Boyin Feng et al.

LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

Yushi Lan, Fangzhou Hong, Shuai Yang et al.

BAD-Gaussians: Bundle Adjusted Deblur Gaussian Splatting

Lingzhe Zhao, Peng Wang, Peidong Liu

ECCV 2024arXiv:2403.11831

3d gaussian splattingmotion deblurringneural renderingbundle adjustment+4

74

citations

#30

GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning

Ye Yuan, Xueting Li, Yangyi Huang et al.

Free3D: Consistent Novel View Synthesis without 3D Representation

Chuanxia Zheng, Andrea Vedaldi

MeshAnything V2: Artist-Created Mesh Generation with Adjacent Mesh Tokenization

Yiwen Chen, Yikai Wang, Yihao Luo et al.

NeRF-LiDAR: Generating Realistic LiDAR Point Clouds with Neural Radiance Fields

Junge Zhang, Feihu Zhang, Shaochen Kuang et al.

AAAI 2024arXiv:2304.14811

neural radiance fieldslidar simulationpoint cloud generation3d scene representation+4

66

citations

#34

TC4D: Trajectory-Conditioned Text-to-4D Generation

Sherwin Bahmani, Xian Liu, Wang Yifan et al.

ECCV 2024arXiv:2403.17920

text-to-4d generationtrajectory-conditioned generationdynamic 3d scenesneural representations+4

64

citations

#35

SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Mark Boss, Zixuan Huang, Aaryaman Vasishta et al.

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation

Junming Chen, Yunfei Liu, Jianan Wang et al.

Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction

Junuk Cha, Jihyeon Kim, Jae Shin Yoon et al.

Improving 2D Feature Representations by 3D-Aware Fine-Tuning

Yuanwen Yue, Anurag Das, Francis Engelmann et al.

ECCV 2024arXiv:2407.20229

3d gaussian representationsemantic feature lifting3d-aware fine-tuning2d foundation models+4

55

citations

#39

Controlling Space and Time with Diffusion Models

Daniel Watson, Saurabh Saxena, Lala Li et al.

Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts

Xinhua Cheng, Tianyu Yang, Jianan Wang et al.

Proteina: Scaling Flow-based Protein Structure Generative Models

Tomas Geffner, Kieran Didi, Zuobai Zhang et al.

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

Junlin Han, Filippos Kokkinos, Philip Torr

GVGEN: Text-to-3D Generation with Volumetric Representation

Xianglong He, Junyi Chen, Sida Peng et al.

ECCV 2024arXiv:2403.12957

3d gaussian splattingvolumetric representationtext-to-3d generationdiffusion-based framework+3

51

citations

#44

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior

Zike Wu, Pan Zhou, YI Xuanyu et al.

HeadGaS: Real-Time Animatable Head Avatars via 3D Gaussian Splatting

Helisa Dhamo, Yinyu Nie, Arthur Moreau et al.

You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

Baorui Ma, Huachen Gao, Haoge Deng et al.

CVPR 2025arXiv:2412.06699

3d generation modelsmulti-view diffusion modelpose-free videoslarge-scale video data+4

49

citations

#47

UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

Zexiang Liu, Yangguang Li, Youtian Lin et al.

Aether: Geometric-Aware Unified World Modeling

Haoyi Zhu, Yifan Wang, Jianjun Zhou et al.

Mosaic-SDF for 3D Generative Models

Lior Yariv, Omri Puny, Oran Gafni et al.

Generating Human Motion in 3D Scenes from Text Descriptions

Zhi Cen, Huaijin Pi, Sida Peng et al.

Digital Life Project: Autonomous 3D Characters with Social Intelligence

Zhongang Cai, Jianping Jiang, Zhongfei Qing et al.

Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer

Yu Deng, Duomin Wang, Baoyuan Wang

ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

Yongwei Chen, Tengfei Wang, Tong Wu et al.

ECCV 2024arXiv:2403.12409

3d asset generationsingle-image 3d generationspatially-aware diffusion guidancescore distillation sampling+4

45

citations

#54

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

Rui Chen, Jianfeng Zhang, Yixun Liang et al.

SemCity: Semantic Scene Generation with Triplane Diffusion

Jumin Lee, Sebin Lee, Changho Jo et al.

Emotional Speech-driven 3D Body Animation via Disentangled Latent Diffusion

Kiran Chhatre, Radek Danecek, Nikos Athanasiou et al.

Learning the 3D Fauna of the Web

Zizhang Li, Dor Litvak, Ruining Li et al.

A Compact Dynamic 3D Gaussian Representation for Real-Time Dynamic View Synthesis

Kai Katsumata, Duc Minh Vo, Hideki Nakayama

ECCV 2024arXiv:2311.12897

3d gaussian splattingdynamic view synthesisreal-time renderingcompact 3d representation+3

41

citations

#59

Generative Proxemics: A Prior for 3D Social Interaction from Images

Vickie Ye, Vickie Ye, Georgios Pavlakos et al.

EG4D: Explicit Generation of 4D Object without Score Distillation

Qi Sun, Zhiyang Guo, Ziyu Wan et al.

ICLR 2025arXiv:2405.18132

4d object generationscore distillation samplingvideo diffusion modelsmulti-view video synthesis+4

39

citations

#61

EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis

Alexander Mai, Peter Hedman, George Kopanas et al.

Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

Li Hu, wang yuan, Zhen Shen et al.

ICCV 2025arXiv:2502.06145

character image animationdiffusion modelsenvironment affordancemotion signal extraction+4

38

citations

#63

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

Fangfu Liu, Diankun Wu, Yi Wei et al.

GenZI: Zero-Shot 3D Human-Scene Interaction Generation

Lei Li, Angela Dai

Control4D: Efficient 4D Portrait Editing with Text

Ruizhi Shao, Jingxiang Sun, Cheng Peng et al.

Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle

Zhenyu Tang, Junwu Zhang, Xinhua Cheng et al.

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

Hanzhe Hu, Zhizhuo Zhou, Varun Jampani et al.

FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis

Ke Fan, Junshu Tang, Weijian Cao et al.

ECCV 2024arXiv:2405.15763

text-to-motion synthesismulti-person motion generationconditional motion distributionmotion spatial control+1

35

citations

#69

Generalizable Human Gaussians for Sparse View Synthesis

Youngjoong Kwon, Baole Fang, Yixing Lu et al.

ECCV 2024arXiv:2407.12777

sparse view synthesisgaussian splatting3d human modelingneural rendering+3

34

citations

#70

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Siyuan Huang, Liliang Chen, Pengfei Zhou et al.

HiFi-123: Towards High-fidelity One Image to 3D Content Generation

Wangbo Yu, Li Yuan, Yanpei Cao et al.

ECCV 2024arXiv:2310.06744

single image 3d generationdiffusion modelsnovel view synthesis3d content generation+4

34

citations

#72

AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

Xinzhou Wang, Yikai Wang, junliang ye et al.

ECCV 2024arXiv:2312.03795

text-to-4d generationnon-rigid 3d reconstructioncanonical score distillationmonocular video reconstruction+4

33

citations

#73

Generative Gaussian Splatting for Unbounded 3D City Generation

Haozhe Xie, Zhaoxi Chen, Fangzhou Hong et al.

Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling

Zhihao Li, Yufei Wang, Heliang Zheng et al.

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

Shentong Mo, Pedro Morgado

SHAP-EDITOR: Instruction-Guided Latent 3D Editing in Seconds

Minghao Chen, Junyu Xie, Iro Laina et al.

MVPGS: Excavating Multi-view Priors for Gaussian Splatting from Sparse Input Views

Wangze Xu, Huachen Gao, Shihe Shen et al.

3D-HGS: 3D Half-Gaussian Splatting

Haolin Li, Jinyang Liu, Mario Sznaier et al.

VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation

Yang Chen, Yingwei Pan, haibo yang et al.

Nuvo: Neural UV Mapping for Unruly 3D Representations

Pratul Srinivasan, Stephan J Garbin, Dor Verbin et al.

OmniPhysGS: 3D Constitutive Gaussians for General Physics-Based Dynamics Generation

Yuchen Lin, Chenguo Lin, Jianjin Xu et al.

Ghost on the Shell: An Expressive Representation of General 3D Shapes

Zhen Liu, Yao Feng, Yuliang Xiu et al.

Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework

Ziyao Huang, Fan Tang, Yong Zhang et al.

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

Lihe Ding, Shaocong Dong, Zhanpeng Huang et al.

Language-Driven Physics-Based Scene Synthesis and Editing via Feature Splatting

Ri-Zhao Qiu, Ge Yang, Weijia Zeng et al.

ECCV 2024

3d gaussian primitivesphysics-based dynamicsscene synthesisvision-language features+4

28

citations

#86

GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding

Hao Li, Dingwen Zhang, Yalun Dai et al.

PartCrafter: Structured 3D Mesh Generation via Compositional Latent Diffusion Transformers

Yuchen Lin, Chenguo Lin, Panwang Pan et al.

Unifying Correspondence Pose and NeRF for Generalized Pose-Free Novel View Synthesis

Sunghwan Hong, Jaewoo Jung, Heeseong Shin et al.

MeshAvatar: Learning High-quality Triangular Human Avatars from Multi-view Videos

Yushuo Chen, Zerong Zheng, Zhe Li et al.

DiffAssemble: A Unified Graph-Diffusion Model for 2D and 3D Reassembly

Gianluca Scarpellini, Stefano Fiorini, Francesco Giuliari et al.

Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles

Vanessa Sklyarova, Egor Zakharov, Otmar Hilliges et al.

Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion

Zuoyue Li, Zhenqiang Li, Zhaopeng Cui et al.

MVIP-NeRF: Multi-view 3D Inpainting on NeRF Scenes via Diffusion Prior

Honghua Chen, Chen Change Loy, Xingang Pan

MoDGS: Dynamic Gaussian Splatting from Casually-captured Monocular Videos with Depth Priors

Qingming LIU, Yuan Liu, Jiepeng Wang et al.

Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models

Shengqu Cai, Duygu Ceylan, Matheus Gadelha et al.

CAT-3DGS: A Context-Adaptive Triplane Approach to Rate-Distortion-Optimized 3DGS Compression

Yu-Ting Zhan, Cheng-Yuan Ho, He-Bi Yang et al.

ICLR 2025arXiv:2503.00357

3d gaussian splattingrate-distortion optimization3d representation compressionautoregressive entropy coding+3

26

citations

#97

Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion

Linzhan Mou, Jun-Kun Chen, Yu-Xiong Wang

CORE4D: A 4D Human-Object-Human Interaction Dataset for Collaborative Object REarrangement

Yun Liu, Chengwen Zhang, Ruofan Xing et al.

Diffusion Time-step Curriculum for One Image to 3D Generation

YI Xuanyu, Zike Wu, Qingshan Xu et al.

Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation

Xianghui Xie, Bharat Lal Bhatnagar, Jan Lenssen et al.

CVPR 2024

24

citations

3D Generation

Top Conferences

Related Topics (Generative Models)

Top Papers

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering

Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting

Text-to-3D using Gaussian Splatting

Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields

SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion

GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models

DMV3D: Denoising Multi-view Diffusion Using 3D Large Reconstruction Model

CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians

SplattingAvatar: Realistic Real-Time Human Avatars with Mesh-Embedded Gaussian Splatting

GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis

Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting

GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

XCube: Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models

FreGS: 3D Gaussian Splatting with Progressive Frequency Regularization

DimensionX: Create Any 3D and 4D Scenes from a Single Image with Decoupled Video Diffusion

OmniRe: Omni Urban Scene Reconstruction

MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers

3D Geometry-Aware Deformable Gaussian Splatting for Dynamic View Synthesis

Pixel-GS Density Control with Pixel-aware Gradient for 3D Gaussian Splatting

Infinigen Indoors: Photorealistic Indoor Scenes using Procedural Generation

NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis

CG-SLAM: Efficient Dense RGB-D SLAM in a Consistent Uncertainty-aware 3D Gaussian Field

LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

BAD-Gaussians: Bundle Adjusted Deblur Gaussian Splatting

GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning

Free3D: Consistent Novel View Synthesis without 3D Representation

MeshAnything V2: Artist-Created Mesh Generation with Adjacent Mesh Tokenization

NeRF-LiDAR: Generating Realistic LiDAR Point Clouds with Neural Radiance Fields

TC4D: Trajectory-Conditioned Text-to-4D Generation

SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation

Text2HOI: Text-guided 3D Motion Generation for Hand-Object Interaction

Improving 2D Feature Representations by 3D-Aware Fine-Tuning

Controlling Space and Time with Diffusion Models

Progressive3D: Progressively Local Editing for Text-to-3D Content Creation with Complex Semantic Prompts

Proteina: Scaling Flow-based Protein Structure Generative Models

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

GVGEN: Text-to-3D Generation with Volumetric Representation

Consistent3D: Towards Consistent High-Fidelity Text-to-3D Generation with Deterministic Sampling Prior

HeadGaS: Real-Time Animatable Head Avatars via 3D Gaussian Splatting

You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

Aether: Geometric-Aware Unified World Modeling

Mosaic-SDF for 3D Generative Models

Generating Human Motion in 3D Scenes from Text Descriptions

Digital Life Project: Autonomous 3D Characters with Social Intelligence

Portrait4D-v2: Pseudo Multi-View Data Creates Better 4D Head Synthesizer

ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

Dora: Sampling and Benchmarking for 3D Shape Variational Auto-Encoders

SemCity: Semantic Scene Generation with Triplane Diffusion

Emotional Speech-driven 3D Body Animation via Disentangled Latent Diffusion

Learning the 3D Fauna of the Web

A Compact Dynamic 3D Gaussian Representation for Real-Time Dynamic View Synthesis

Generative Proxemics: A Prior for 3D Social Interaction from Images

EG4D: Explicit Generation of 4D Object without Score Distillation

EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis

Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior

GenZI: Zero-Shot 3D Human-Scene Interaction Generation

Control4D: Efficient 4D Portrait Editing with Text

Cycle3D: High-quality and Consistent Image-to-3D Generation via Generation-Reconstruction Cycle

MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation

FreeMotion: A Unified Framework for Number-free Text-to-Motion Synthesis

Generalizable Human Gaussians for Sparse View Synthesis

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

HiFi-123: Towards High-fidelity One Image to 3D Content Generation

AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation

Generative Gaussian Splatting for Unbounded 3D City Generation

Sparc3D: Sparse Representation and Construction for High-Resolution 3D Shapes Modeling

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

SHAP-EDITOR: Instruction-Guided Latent 3D Editing in Seconds