Jiangmiao Pang

15

Papers

359

Total Citations

Papers (15)

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities

Unified Human-Scene Interaction via Prompted Chain-of-Contacts

Aether: Geometric-Aware Unified World Modeling

GenNBV: Generalizable Next-Best-View Policy for Active 3D Reconstruction

RoboGround: Robotic Manipulation with Grounded Vision-Language Priors

EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

GENMANIP: LLM-driven Simulation for Generalizable Instruction-Following Manipulation

Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities

ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

LabUtopia: High-Fidelity Simulation and Hierarchical Benchmark for Scientific Embodied Agents

NeurIPS 2025arXiv

VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization

GLEAM: Learning Generalizable Exploration Policy for Active Mapping in Complex 3D Indoor Scene

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI