Siyuan Huang

27

Papers

364

Total Citations

Papers (27)

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Move as You Say Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

Decompositional Neural Scene Reconstruction with Generative Diffusion Prior

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

Neural-Symbolic Recursive Machine for Systematic Generalization

TACO: Taming Diffusion for in-the-wild Video Amodal Completion

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing

InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing

Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation

PrimHOI: Compositional Human-Object Interaction via Reusable Primitives

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

Scaling Up Dynamic Human-Scene Interaction Modeling

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI

An Embodied Generalist Agent in 3D World

ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill

Dynamic Motion Blending for Versatile Motion Editing

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

METASCENES: Towards Automated Replica Creation for Real-world 3D Scans

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents