Chuang Gan

19

Papers

197

Total Citations

Papers (19)

MultiPLY: A Multisensory Object-Centric Embodied Large Language Model in 3D World

Learning 4D Embodied World Models

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences

Learning 3D Persistent Embodied World Models

Scaling Autonomous Agents via Automatic Reward Modeling And Planning

UniMuMo: Unified Text, Music, and Motion Generation

RapVerse: Coherent Vocals and Whole-Body Motion Generation from Text

RoboDreamer: Learning Compositional World Models for Robot Imagination

ContPhy: Continuum Physical Concept Learning and Reasoning from Videos

3D-VLA: A 3D Vision-Language-Action Generative World Model

RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

VCA: Video Curious Agent for Long Video Understanding

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge

Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance

RILA: Reflective and Imaginative Language Agent for Zero-Shot Semantic Audio-Visual Navigation

LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery

Speech Self-Supervised Learning Using Diffusion Model Synthetic Data