Yilun Du

48

Papers

748

Total Citations

1

Affiliations

Affiliations

MIT

Papers (48)

Learning Interactive Real-World Simulators

Video Language Planning

Large-scale Reinforcement Learning for Diffusion Models

History-Guided Video Diffusion

Looped Transformers for Length Generalization

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

Generative Trajectory Stitching through Diffusion Composition

Learning 3D Persistent Embodied World Models

Compositional Generative Inverse Design

Solving New Tasks by Adapting Internet Video Knowledge

Win Fast or Lose Slow: Balancing Speed and Accuracy in Latency-Sensitive Decisions of LLMs

Compositional Scene Understanding through Inverse Generative Modeling

3D Concept Learning and Reasoning From Multi-View Images

Neural Radiance Flow for 4D View Synthesis and Video Processing

3D Shape Generation and Completion Through Point-Voxel Diffusion

Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions

Curious Representation Learning for Embodied Intelligence

Unsupervised Compositional Concepts Discovery with Text-to-Image Generative Models

3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning

Compositional Visual Generation with Composable Diffusion Models

Learning 4D Embodied World Models

Position: Compositional Generative Modeling: A Single Model is Not All You Need

Improving Factuality and Reasoning in Language Models through Multiagent Debate

Learning Iterative Reasoning through Energy Diffusion

Potential Based Diffusion Motion Planning

RoboDreamer: Learning Compositional World Models for Robot Imagination

3D-VLA: A 3D Vision-Language-Action Generative World Model

Compositional Image Decomposition with Diffusion Models

Position: Video as the New Language for Real-World Decision Making

Kubric: A Scalable Dataset Generator

Learning To Render Novel Views From Wide-Baseline Stereo Pairs

Learning to Exploit Stability for 3D Scene Parsing

Implicit Generation and Modeling with Energy Based Models

Compositional Visual Generation with Energy Based Models

Learning Signal-Agnostic Manifolds of Neural Fields

Unsupervised Learning of Compositional Energy Concepts

Learning to Compose Visual Relations

Learning Neural Acoustic Fields

3D Concept Grounding on Neural Fields

Pre-Trained Language Models for Interactive Decision-Making

FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses via Pixel-Aligned Scene Flow

Learning Universal Policies via Text-Guided Video Generation

3D-LLM: Injecting the 3D World into Large Language Models

Compositional Foundation Models for Hierarchical Planning

Adaptive Online Replanning with Diffusion Models

DiffuseBot: Breeding Soft Robots With Physics-Augmented Generative Diffusion Models

Secure Out-of-Distribution Task Generalization with Energy-Based Models

Task-Agnostic Dynamics Priors for Deep Reinforcement Learning