Robotics

ICLR 2025arXiv:2410.07087

#9

MCD: Diverse Large-Scale Multi-Campus Dataset for Robot Perception

Thien-Minh Nguyen, Shenghai Yuan, Thien Nguyen et al.

CLoSD: Closing the Loop between Simulation and Diffusion for multi-task character control

Guy Tevet, Sigal Raab, Setareh Cohan et al.

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

Xiangyu Wang, Donglin Yang, ziqin wang et al.

vision-language navigationuav navigationtrajectory generationmultimodal understanding+4

52

NeurIPS 2025arXiv:2505.23705

#12

OMG: Towards Open-vocabulary Motion Generation via Mixture of Controllers

Han Liang, Jiacheng Bao, Ruichi Zhang et al.

Digital Life Project: Autonomous 3D Characters with Social Intelligence

Zhongang Cai, Jianping Jiang, Zhongfei Qing et al.

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

Danny Driess, Jost Springenberg, Brian Ichter et al.

vision-language-action modelscontinuous control policiesdiffusion action expertflow matching+4

46

ICLR 2025arXiv:2410.22325

#15

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Mingjie Pan, Jiyao Zhang, Tianshu Wu et al.

VLAS: Vision-Language-Action Model with Speech Instructions for Customized Robot Manipulation

Wei Zhao, Pengxiang Ding, Zhang Min et al.

EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation

Siyuan Huang, Liliang Chen, Pengfei Zhou et al.

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation

Hanzhi Chen, Boyang Sun, Anran Zhang et al.

RLIF: Interactive Imitation Learning as Reinforcement Learning

Jianlan Luo, Perry Dong, Yuexiang Zhai et al.

Entity-Centric Reinforcement Learning for Object Manipulation from Pixels

Dan Haramati, Tal Daniel, Aviv Tamar

OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning

Xiaoqiang Wang, Bang Liu

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets

Guangqi Jiang, Yifei Sun, Tao Huang et al.

robotic representation learningmanipulation centricitycontrastive learningrobot proprioception+4

23

ICLR 2025arXiv:2412.15182

#23

Domain Prompt Learning with Quaternion Networks

Qinglong Cao, Zhengqin Xu, Yuntian Chen et al.

Robust Tracking via Mamba-based Context-aware Token Learning

Jinxia Xie, Bineng Zhong, Qihua Liang et al.

STRAP: Robot Sub-Trajectory Retrieval for Augmented Policy Learning

Marius Memmel, Jacob Berg, Bingqing Chen et al.

robot learningsub-trajectory retrievalpolicy adaptationvision foundation models+4

20

ICLR 2025arXiv:2405.18418

#26

Hierarchical World Models as Visual Whole-Body Humanoid Controllers

Nick Hansen, Jyothir S V, Vlad Sobal et al.

whole-body controlhumanoid roboticsvisual observationshierarchical world model+4

20

ICLR 2025arXiv:2410.23208

#27

Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks

Michael Matthews, Michael Beukman, Chris Lu et al.

reinforcement learningphysics-based controlprocedural generationhardware-accelerated simulation+4

20

NeurIPS 2025arXiv:2504.14305

#28

ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning

Hongyin Zhang, Zifeng Zhuang, Han Zhao et al.

Pre-training Auto-regressive Robotic Models with 4D Representations

Dantong Niu, Yuvan Sharma, Haoru Xue et al.

TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation

Hongxiang Zhao, Xingchen Liu, Mutian Xu et al.

Cross-Embodiment Dexterous Grasping with Reinforcement Learning

Haoqi Yuan, Bohan Zhou, Yuhui Fu et al.

Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation

Jiaming Zhou, Teli Ma, Kun-Yu Lin et al.

ThinkBot: Embodied Instruction Following with Thought Chain Reasoning

Guanxing Lu, Ziwei Wang, Changliu Liu et al.

Programmable Motion Generation for Open-Set Motion Control Tasks

Hanchao Liu, Xiaohang Zhan, Shaoli Huang et al.

CORN: Contact-based Object Representation for Nonprehensile Manipulation of General Unseen Objects

Yoonyoung Cho, Junhyek Han, Yoontae Cho et al.

SAFE: Multitask Failure Detection for Vision-Language-Action Models

Qiao Gu, Yuanliang Ju, Shengxiang Sun et al.

ET-SEED: EFFICIENT TRAJECTORY-LEVEL SE(3) EQUIVARIANT DIFFUSION POLICY

Chenrui Tie, Yue Chen, Ruihai Wu et al.

DRoC: Elevating Large Language Models for Complex Vehicle Routing via Decomposed Retrieval of Constraints

Xia Jiang, Yaoxin Wu, Chenhao Zhang et al.

RoboTron-Mani: All-in-One Multimodal Large Model for Robotic Manipulation

Feng yan, Fanfan Liu, Yiyang Huang et al.

Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning

Jiyuan Shi, Xinzhe Liu, Dewei Wang et al.

adversarial policy learninghumanoid robot controlwhole-body motion imitationloco-manipulation tasks+4

13

ICLR 2025arXiv:2502.11124

#41

JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups

Simindokht Jahangard, Zhixi Cai, Shiki Wen et al.

TANGO: Training-free Embodied AI Agents for Open-world Tasks

Filippo Ziliotto, Tommaso Campari, Luciano Serafini et al.

AdaManip: Adaptive Articulated Object Manipulation Environments and Policy Learning

Yuanfei Wang, Xiaojie Zhang, Ruihai Wu et al.

articulated object manipulationadaptive manipulation policy3d visual diffusionimitation learning+4

12

ECCV 2024arXiv:2404.09150

#44

Enhancing Multi-Robot Semantic Navigation Through Multimodal Chain-of-Thought Score Collaboration

Zhixuan Shen, Haonan Luo, Kexun Chen et al.

Learning the RoPEs: Better 2D and 3D Position Encodings with STRING

Connor Schenck, Isaac Reid, Mithun Jacob et al.

Touch in the Wild: Learning Fine-Grained Manipulation with a Portable Visuo-Tactile Gripper

Xinyue Zhu, Binghao Huang, Yunzhu Li

Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data

Chongyi Zheng, Benjamin Eysenbach, Homer Walke et al.

RoboTron-Drive: All-in-One Large Multimodal Model for Autonomous Driving

Zhijian Huang, Chengjian Feng, Baihui Xiao et al.

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Yiran Qin, Li Kang, Xiufeng Song et al.

Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households

Zhihao Cao, ZiDong Wang, Siwen Xie et al.

Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

Dongyoung Kim, Huiwon Jang, Sumin Park et al.

Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects

Tai Hoang, Huy Le, Philipp Becker et al.

Tartan IMU: A Light Foundation Model for Inertial Positioning in Robotics

Shibo Zhao, Sifan Zhou, Raphael Blanchard et al.

UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning

Xiangyu Wang, Donglin Yang, Yue Liao et al.

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training

Raktim Gautam Goswami, Prashanth Krishnamurthy, Yann LeCun et al.

Generating Freeform Endoskeletal Robots

Muhan Li, Lingji Kong, Sam Kriegman

The Bandit Whisperer: Communication Learning for Restless Bandits

Yunfan Zhao, Tonghan Wang, Dheeraj Mysore Nagaraj et al.

SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning

Borong Zhang, Yuhao Zhang, Jiaming Ji et al.

Learning Cross-hand Policies of High-DOF Reaching and Grasping

Qijin She, Shishun Zhang, Yunfan Ye et al.

cross-hand policy transferdexterous gripper controlrobotic reaching and graspinggripper-agnostic policy+3

7

AAAI 2024arXiv:2309.07934

#60

GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation

Yangtao Chen, Zixuan Chen, Junhui Yin et al.

ROICtrl: Boosting Instance Control for Visual Generation

Yuchao Gu, Yipin Zhou, Yunfan Ye et al.

Safe Planner: Empowering Safety Awareness in Large Pre-Trained Models for Robot Task Planning

Siyuan Li, Feifan Liu, Lingfei Cui et al.

Racing Control Variable Genetic Programming for Symbolic Regression

Nan Jiang, Yexiang Xue

symbolic regressiongenetic programmingcontrol variable experimentsexperiment schedule selection+2

6

NeurIPS 2025arXiv:2506.16685

#64

Rethinking Bimanual Robotic Manipulation: Learning with Decoupled Interaction Framework

Jian-Jian Jiang, Xiao-Ming Wu, Yi-Xiang He et al.

Lift3D Policy: Lifting 2D Foundation Models for Robust 3D Robotic Manipulation

Yueru Jia, Jiaming Liu, Sixiang Chen et al.

Scaffolding Dexterous Manipulation with Vision-Language Models

Vincent de Bakker, Joey Hejna, Tyler Lum et al.

Instruction-Augmented Long-Horizon Planning: Embedding Grounding Mechanisms in Embodied Mobile Manipulation

Fangyuan Wang, Shipeng Lyu, Peng Zhou et al.

Compliant Residual DAgger: Improving Real-World Contact-Rich Manipulation with Human Corrections

Xiaomeng Xu, Yifan Hou, Zeyi Liu et al.

contact-rich manipulationdataset aggregationhuman correctionscompliance control+3

5

NeurIPS 2025arXiv:2506.09990

#69

Learning Physics Informed Neural ODEs with Partial Measurements

Paul Ghanem, Ahmet Demirkaya, Tales Imbiriba et al.

Learning to Navigate Efficiently and Precisely in Real Environments

Guillaume Bono, Hervé Poirier, Leonid Antsfeld et al.

PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Hao Zhang, Haolan Xu, Chun Feng et al.

PRIMAL: Physically Reactive and Interactive Motor Model for Avatar Learning

Yan Zhang, Yao Feng, Alpár Cseke et al.

GARLIC: GPT-Augmented Reinforcement Learning with Intelligent Control for Vehicle Dispatching

Xiao Han, Zijian Zhang, Xiangyu Zhao et al.

ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping

Shun Iwase, Muhammad Zubair Irshad, Katherine Liu et al.

MRBTP: Efficient Multi-Robot Behavior Tree Planning and Collaboration

Yishuai Cai, Xinglin Chen, Zhongxuan Cai et al.

Control-oriented Clustering of Visual Latent Representation

Han Qi, Haocheng Yin, Heng Yang

Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

Wenbo Zhang, Tianrun Hu, Hanbo Zhang et al.

trajectory autoregressive modelingvisuo-motor policyrobotic manipulationaction-level chain-of-thought+4

ECCV 2024arXiv:2410.12023

#78

Generating Traffic Scenarios via In-Context Learning to Learn Better Motion Planner

Aizierjiang Aiersilan

Learned Neural Physics Simulation for Articulated 3D Human Pose Reconstruction

Mykhaylo Andriluka, Baruch Tabanpour, Daniel Freeman et al.

articulated rigid body dynamicsneural physics simulationhuman motion reconstructioncontact modeling+4

CVPR 2025arXiv:2505.02166

#80

Regret Analysis of Multi-task Representation Learning for Linear-Quadratic Adaptive Control

Bruce D. Lee, Leonardo F. Toso, Thomas T. Zhang et al.

Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation

Xiaoqi Li, Lingyun Xu, Mingxu Zhang et al.

vision-language-action modelrobotic manipulationmulti-modal promptsse(3) pose prediction+2

CVPR 2025arXiv:2505.06218

#82

Let Humanoids Hike! Integrative Skill Development on Complex Trails

Kwan-Yee Lin, Stella X. Yu

humanoid robot locomotionhierarchical reinforcement learningtemporal vision transformerprivileged learning+4

NeurIPS 2025arXiv:2509.23829

#83

Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images

Hongyu Yan, Yadong Mu

Motion Control of High-Dimensional Musculoskeletal Systems with Hierarchical Model-Based Planning

Yunyue Wei, Shanning Zhuang, Vincent Zhuang et al.

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Xin Wen, Bingchen Zhao, Yilun Chen et al.

RoboTron-Sim: Improving Real-World Driving via Simulated Hard-Case

Baihui Xiao, Chengjian Feng, Zhijian Huang et al.

Deep learning for continuous-time stochastic control with jumps

Patrick Cheridito, Jean-Loup Dupret, Donatien Hainaut

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation

Kefei Zhu, Fengshuo Bai, YuanHao Xiang et al.

dexterous manipulationimitation learningresidual reinforcement learningdata augmentation+4

NeurIPS 2025arXiv:2505.24161

#89

ELEMENTAL: Interactive Learning from Demonstrations and Vision-Language Models for Reward Design in Robotics

Letian Chen, Nina Moorman, Matthew Gombolay

Proxy Target: Bridging the Gap Between Discrete Spiking Neural Networks and Continuous Control

Zijie Xu, Tong Bu, Zecheng Hao et al.

spiking neural networkscontinuous controlreinforcement learningneuromorphic hardware+4

NeurIPS 2025arXiv:2505.21665

#91

Convergent Functions, Divergent Forms

Hyeonseong Jeon, Ainaz Eftekhar, Aaron Walsman et al.

morphology control co-designpolicy reuselatent space clusteringdynamic local search+4

pose estimationsoft roboticsshape prior3d shape representation+4

#92

4D Visual Pre-training for Robot Learning

Chengkai Hou, Yanjie Ze, Yankai Fu et al.

Shape-guided Configuration-aware Learning for Endoscopic-image-based Pose Estimation of Flexible Robotic Instruments

YIYAO MA, Kai Chen, Hon-Sing Tong et al.

ECCV 2024

CVPR 2025arXiv:2503.08306

#94

Data Center Cooling System Optimization Using Offline Reinforcement Learning

Xianyuan Zhan, Xiangyu Zhu, Peng Cheng et al.

Reasoning in Visual Navigation of End-to-end Trained Agents: A Dynamical Systems Approach

Steeven JANNY, Hervé Poirier, Leonid Antsfeld et al.

visual navigationembodied aiend-to-end trainingreal robot deployment+4

ICCV 2025arXiv:2503.18525

#96

RoboTron-Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction

Yufeng Zhong, Chengjian Feng, Feng yan et al.

embodied navigationlanguage-guided navigationobject goal navigationadaptive history sampling+4

#97

Angular Steering: Behavior Control via Rotation in Activation Space

Minh Hieu Vu, Tan Nguyen

CL-DiffPhyCon: Closed-loop Diffusion Control of Complex Physical Systems

Long Wei, Haodong Feng, Yuchen Yang et al.

Bisimulation Metric for Model Predictive Control

Yutaka Shimizu, Masayoshi Tomizuka

Learning system dynamics without forgetting

Xikun ZHANG, Dongjin Song, Yushan Jiang et al.

ICLR 2025

2