Siyuan Huang

Papers

364

Total Citations

Papers (51)

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

ICCV 2025

citations

Move as You Say Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

CVPR 2024

citations

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

NeurIPS 2025

citations

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

ICLR 2025

citations

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

ICCV 2025arXiv

citations

F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

ECCV 2024

citations

Decompositional Neural Scene Reconstruction with Generative Diffusion Prior

CVPR 2025

citations

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

CVPR 2025

citations

Neural-Symbolic Recursive Machine for Systematic Generalization

ICLR 2024

citations

TACO: Taming Diffusion for in-the-wild Video Amodal Completion

ICCV 2025

citations

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

NeurIPS 2025

citations

Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing

ICCV 2025

citations

InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing

CVPR 2025

citations

Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation

CVPR 2025arXiv

citations

PrimHOI: Compositional Human-Object Interaction via Reusable Primitives

ICCV 2025

citations

Infrared Invisible Clothing: Hiding From Infrared Detectors at Multiple Angles in Real World

CVPR 2022arXiv

citations

Adversarial Texture for Fooling Person Detectors in the Physical World

CVPR 2022arXiv

citations

Prompt, Generate, Then Cache: Cascade of Foundation Models Makes Strong Few-Shot Learners

CVPR 2023arXiv

citations

GAPartNet: Cross-Category Domain-Generalizable Object Perception and Manipulation via Generalizable and Actionable Parts

CVPR 2023arXiv

citations

Holistic++ Scene Understanding: Single-View 3D Holistic Scene Parsing and Human Pose Estimation With Human-Object Interaction and Physical Commonsense

ICCV 2019

citations

YouRefIt: Embodied Reference Understanding With Language and Gesture

ICCV 2021arXiv

citations

VLGrammar: Grounded Grammar Induction of Vision and Language

ICCV 2021arXiv

citations

3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment

ICCV 2023

citations

ARNOLD: A Benchmark for Language-Grounded Task Learning with Continuous States in Realistic 3D Scenes

ICCV 2023arXiv

citations

Full-Body Articulated Human-Object Interaction

ICCV 2023arXiv

citations

A Competence-aware Curriculum for Visual Concepts Learning via Question Answering

ECCV 2020

citations

LEMMA: A Multi-view Dataset for LEarning Multi-agent Multi-task Activities

ECCV 2020

citations

Spatio-Temporal Self-Supervised Representation Learning for 3D Point Clouds

ICCV 2021arXiv

citations

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

CVPR 2025

citations

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

CVPR 2025

citations

METASCENES: Towards Automated Replica Creation for Real-world 3D Scans

CVPR 2025

citations

Dynamic Motion Blending for Versatile Motion Editing

CVPR 2025

citations

ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

CVPR 2025

citations

GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill

CVPR 2025

citations

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

ICCV 2025

citations

AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents

CVPR 2024

citations

Scaling Up Dynamic Human-Scene Interaction Modeling

CVPR 2024

citations

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI

CVPR 2024

citations

An Embodied Generalist Agent in 3D World

ICML 2024

citations

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

ICML 2024

citations

Human-Centric Indoor Scene Synthesis Using Stochastic Grammar

CVPR 2018arXiv

citations

Learning Neural Representation of Camera Pose with Matrix Representation of Pose Shift via View Synthesis

CVPR 2021arXiv

citations

Cooperative Holistic Scene Understanding: Unifying 3D Object, Layout, and Camera Pose Estimation

NeurIPS 2018

citations

PerspectiveNet: 3D Object Detection from a Single RGB Image via Perspective Points

NeurIPS 2019

citations

EgoTaskQA: Understanding Human Tasks in Egocentric Videos

NeurIPS 2022

citations

HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes

NeurIPS 2022

citations

ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab

NeurIPS 2023

citations

Tailoring Self-Attention for Graph via Rooted Subtrees

NeurIPS 2023

citations

Siyuan Huang

Papers (51)

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Move as You Say Interact as You Can: Language-guided Human Motion Generation with Scene Affordance

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation

F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

Decompositional Neural Scene Reconstruction with Generative Diffusion Prior

Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis

Neural-Symbolic Recursive Machine for Systematic Generalization

TACO: Taming Diffusion for in-the-wild Video Amodal Completion

SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

Trace3D: Consistent Segmentation Lifting via Gaussian Instance Tracing

InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing

Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation

PrimHOI: Compositional Human-Object Interaction via Reusable Primitives

Infrared Invisible Clothing: Hiding From Infrared Detectors at Multiple Angles in Real World

Adversarial Texture for Fooling Person Detectors in the Physical World

Prompt, Generate, Then Cache: Cascade of Foundation Models Makes Strong Few-Shot Learners

GAPartNet: Cross-Category Domain-Generalizable Object Perception and Manipulation via Generalizable and Actionable Parts

Diffusion-Based Generation, Optimization, and Planning in 3D Scenes

Predicting Human Activities Using Stochastic Grammar

Understanding Human Gaze Communication by Spatio-Temporal Graph Reasoning

Holistic++ Scene Understanding: Single-View 3D Holistic Scene Parsing and Human Pose Estimation With Human-Object Interaction and Physical Commonsense

YouRefIt: Embodied Reference Understanding With Language and Gesture

VLGrammar: Grounded Grammar Induction of Vision and Language

3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment

ARNOLD: A Benchmark for Language-Grounded Task Learning with Continuous States in Realistic 3D Scenes

Full-Body Articulated Human-Object Interaction

A Competence-aware Curriculum for Visual Concepts Learning via Question Answering

LEMMA: A Multi-view Dataset for LEarning Multi-agent Multi-task Activities

Spatio-Temporal Self-Supervised Representation Learning for 3D Point Clouds

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes

METASCENES: Towards Automated Replica Creation for Real-world 3D Scans

Dynamic Motion Blending for Versatile Motion Editing

ManipTrans: Efficient Dexterous Bimanual Manipulation Transfer via Residual Learning

GROVE: A Generalized Reward for Learning Open-Vocabulary Physical Skill

GWM: Towards Scalable Gaussian World Models for Robotic Manipulation

AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents

Scaling Up Dynamic Human-Scene Interaction Modeling

PhyScene: Physically Interactable 3D Scene Synthesis for Embodied AI

An Embodied Generalist Agent in 3D World

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

Human-Centric Indoor Scene Synthesis Using Stochastic Grammar

Learning Neural Representation of Camera Pose with Matrix Representation of Pose Shift via View Synthesis

Cooperative Holistic Scene Understanding: Unifying 3D Object, Layout, and Camera Pose Estimation

PerspectiveNet: 3D Object Detection from a Single RGB Image via Perspective Points

EgoTaskQA: Understanding Human Tasks in Egocentric Videos

HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes

ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab

Tailoring Self-Attention for Graph via Rooted Subtrees