🧬Reinforcement Learning

Multi-Agent RL

RL with multiple agents

100 papers4,943 total citations

Compare with other topics

Feb '24 — Jan '26848 papers

Top Conferences

ICLR: 46 NeurIPS: 19 AAAI: 17 ICML: 8 CVPR: 6 ECCV: 3

Top Papers

#1

A Generalist Agent

Jackie Kay, Sergio Gómez Colmenarejo, Mahyar Bordbar et al.

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

Weize Chen, Yusheng Su, Jingwei Zuo et al.

Mixture-of-Agents Enhances Large Language Model Capabilities

Junlin Wang, Jue Wang, Ben Athiwaratkun et al.

Why Do Multi-Agent LLM Systems Fail?

Mert Cemri, Melissa Z Pan, Shuyi Yang et al.

NeurIPS 2025arXiv:2503.13657

multi-agent llm systemsfailure pattern analysissystem failure taxonomyllm-as-a-judge+3

188

citations

#5

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian et al.

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Zehan Qi, Xiao Liu, Iat Long Iong et al.

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

Weiran Yao, Shelby Heinecke, Juan Carlos Niebles et al.

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

Hanrong Zhang, Jingyuan Huang, Kai Mei et al.

Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control

Longtao Zheng, Rundong Wang, Xinrun Wang et al.

Agent S: An Open Agentic Framework that Uses Computers Like a Human

Saaket Agashe, Jiuzhou Han, Shuyu Gan et al.

Reliable Conflictive Multi-View Learning

Cai Xu, Jiajun Si, Ziyu Guan et al.

AAAI 2024arXiv:2402.16897

multi-view learningconflictive instancesevidential learningopinion aggregation+2

88

citations

#12

OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation

Mengkang Hu, Yuhang Zhou, Wendong Fan et al.

OGBench: Benchmarking Offline Goal-Conditioned RL

Seohong Park, Kevin Frans, Benjamin Eysenbach et al.

ICLR 2025arXiv:2410.20092

offline reinforcement learninggoal-conditioned rlbenchmark evaluationoffline gcrl algorithms+3

74

citations

#14

WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration

Yao Zhang, Zijian Ma, Yunpu Ma et al.

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Davide Paglieri, Bartłomiej Cupiał, Samuel Coward et al.

METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

Seohong Park, Oleh Rybkin, Sergey Levine

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Xiao Liu, Tianjie Zhang, Yu Gu et al.

AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

Ke Yang, Yao Liu, Sapana Chaudhary et al.

ICLR 2025arXiv:2410.13825

web agent groundingobservation space alignmentaction space alignmentllm-based agents+4

66

citations

#19

GuardAgent: Safeguard LLM Agents via Knowledge-Enabled Reasoning

Zhen Xiang, Linzhi Zheng, Yanjie Li et al.

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

Marwa Abdulhai, Isadora White, Charlie Snell et al.

DSBench: How Far Are Data Science Agents from Becoming Data Science Experts?

Liqiang Jing, Zhehui Huang, Xiaoyang Wang et al.

ICLR 2025arXiv:2409.07703

data science agentslarge language modelslarge vision-language modelsdata analysis tasks+4

62

citations

#22

Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Hyungjoo Chae, Namyoung Kim, Kai Ong et al.

ICLR 2025arXiv:2410.13232

web navigation agentsworld modelslarge language modelsautonomous agents+4

59

citations

#23

RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents against Human Experts

Hjalmar Wijk, Tao Lin, Joel Becker et al.

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

Patara Trirat, Wonyong Jeong, Sung Ju Hwang

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Yiheng Xu, Dunjie Lu, Zhennan Shen et al.

Jumanji: a Diverse Suite of Scalable Reinforcement Learning Environments in JAX

Clément Bonnet, Daniel Luo, Donal Byrne et al.

PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks

Matthew Chang, Gunjan Chhablani, Alexander Clegg et al.

Self-Evolving Multi-Agent Collaboration Networks for Software Development

Yue Hu, Yuzhu Cai, Yaxin Du et al.

Dual RL: Unification and New Methods for Reinforcement and Imitation Learning

Harshit Sikchi, Qinqing Zheng, Amy Zhang et al.

ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

Zhaorun Chen, Mintong Kang, Bo Li

ReMA: Learning to Meta-Think for LLMs with Multi-agent Reinforcement Learning

Ziyu Wan, Yunxiang Li, Xiaoyu Wen et al.

NeurIPS 2025arXiv:2503.09501

meta-thinkingmulti-agent reinforcement learninglarge language modelsreasoning processes+4

36

citations

#32

V-IRL: Grounding Virtual Intelligence in Real Life

Jihan YANG, Runyu Ding, Ellis L Brown et al.

ECCV 2024arXiv:2402.03310

embodied ai agentsvirtual environmentsreal-world interactionperception and decision-making+4

35

citations

#33

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

Hongxin Zhang, Zeyuan Wang, Qiushi Lyu et al.

Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning

Chenyu Zhang, Han Wang, Aritra Mitra et al.

System 1.x: Learning to Balance Fast and Slow Planning with Language Models

Swarnadeep Saha, Archiki Prasad, Justin Chen et al.

Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs

Qi Wu, Yubo Zhao, Yifan Wang et al.

ICLR 2025arXiv:2405.17013

human motion generationconversational frameworkmotion editingmotion understanding+4

30

citations

#37

ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding

Yiyang Zhou, Yangfan He, Yaofeng Su et al.

Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning

Yiqun Chen, Lingyong Yan, Weiwei Sun et al.

NeurIPS 2025arXiv:2501.15228

retrieval-augmented generationmulti-agent reinforcement learningquery rewritingdocument retrieval+3

27

citations

#39

Cooper: Coordinating Specialized Agents towards a Complex Dialogue Goal

Yi Cheng, Wenge Liu, Jian Wang et al.

AAAI 2024arXiv:2312.11792

complex dialogue goalsmulti-agent coordinationpersuasive dialogue systemsemotional support dialogue+4

27

citations

#40

KABB: Knowledge-Aware Bayesian Bandits for Dynamic Expert Coordination in Multi-Agent Systems

Jusheng Zhang, Zimeng Huang, Yijia Fan et al.

ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents

Haiyang SHEN, Yue Li, Desong Meng et al.

Multi-Agent Collaboration via Evolving Orchestration

Yufan Dang, Chen Qian, Xueheng Luo et al.

NeurIPS 2025arXiv:2505.19591

multi-agent collaborationlarge language modelsreinforcement learningdynamic orchestration+2

25

citations

#43

Entity-Centric Reinforcement Learning for Object Manipulation from Pixels

Dan Haramati, Tal Daniel, Aviv Tamar

ResearchTown: Simulator of Human Research Community

Haofei Yu, Zhaochen Hong, Zirui Cheng et al.

Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving

Zhenghao Peng, Wenjie Luo, Yiren Lu et al.

G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems

Guibin Zhang, Muxin Fu, Kun Wang et al.

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

Desai Xie, Jiahao Li, Hao Tan et al.

Flow: Modularized Agentic Workflow Automation

Boye Niu, Yiliao Song, Kai Lian et al.

GOAL: A Generalist Combinatorial Optimization Agent Learner

Darko Drakulić, Sofia Michel, Jean-Marc Andreoli

Agent-Oriented Planning in Multi-Agent Systems

Ao LI, Yuexiang Xie, Songze Li et al.

Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks

Michael Matthews, Michael Beukman, Chris Lu et al.

ICLR 2025arXiv:2410.23208

reinforcement learningphysics-based controlprocedural generationhardware-accelerated simulation+4

20

citations

#52

Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents

Arrasy Rahman, Jiaxun Cui, Peter Stone

AAAI 2024arXiv:2308.09595

ad hoc teamworkminimum coverage setrobust cooperationteammate policy diversity+4

19

citations

#53

REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites

Div Garg, Diego Caples, Andis Draguns et al.

NeurIPS 2025arXiv:2504.11543

autonomous agentsweb navigationdeterministic simulationsmulti-turn agent evaluations+4

19

citations

#54

Traffic Flow Optimisation for Lifelong Multi-Agent Path Finding

Zhe Chen, Daniel Harabor, Jiaoyang Li et al.

AAAI 2024arXiv:2308.11234

multi-agent path findingtraffic flow optimizationcollision-free path planningcongestion avoidance+4

18

citations

#55

SiriuS: Self-improving Multi-agent Systems via Bootstrapped Reasoning

Wanjia Zhao, Mert Yuksekgonul, Shirley Wu et al.

Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)

Zhenjie Yang, Xiaosong Jia, Qifeng Li et al.

NeurIPS 2025arXiv:2505.16394

reinforcement learningautonomous drivingworld modelsmodel-based reinforcement learning+4

18

citations

#57

Bridging Distributional and Risk-sensitive Reinforcement Learning with Provable Regret Bounds

Hao Liang, Zhiquan Luo

Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset

Yiming Li, Zhiheng Li, Nuo Chen et al.

Stitching Sub-trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL

Sungyoon Kim, Yunseon Choi, Daiki Matsunaga et al.

AAAI 2024arXiv:2402.07226

offline reinforcement learninggoal-conditioned rlconditional diffusion modelssub-trajectory stitching+4

17

citations

#60

RGMComm: Return Gap Minimization via Discrete Communications in Multi-Agent Reinforcement Learning

Jingdi Chen, Tian Lan, Carlee Joe-Wong

AAAI 2024arXiv:2308.03358

multi-agent reinforcement learningdiscrete communicationreturn gap minimizationonline clustering problem+4

17

citations

#61

Reinforce LLM Reasoning through Multi-Agent Reflection

Yurun Yuan, Tengyang Xie

AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration

Andy Zhou, Kevin Wu, Francesco Pinto et al.

ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems

Xiangyuan Xue, Zeyu Lu, Di Huang et al.

Horizon Reduction Makes RL Scalable

Seohong Park, Kevin Frans, Deepinder Mann et al.

SAFE: Multitask Failure Detection for Vision-Language-Action Models

Qiao Gu, Yuanliang Ju, Shengxiang Sun et al.

AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

Edan Toledo, Karen Hambardzumyan, Martin Josifoski et al.

NeurIPS 2025arXiv:2507.02554

ai research agentsautomated machine learningsearch policiesmcts algorithms+4

15

citations

#67

Simulating Human-like Daily Activities with Desire-driven Autonomy

Yiding Wang, Yuxuan Chen, Fangwei Zhong et al.

FoX: Formation-Aware Exploration in Multi-Agent Reinforcement Learning

Yonghyeon Jo, Sunwoo Lee, Junghyuk Yum et al.

AAAI 2024arXiv:2308.11272

multi-agent reinforcement learningpartial observabilityexploration space scalabilityformation-based equivalence+4

14

citations

#69

MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents

Yanqi Dai, Huanran Hu, Lei Wang et al.

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

Zhaolin Gao, Wenhao Zhan, Jonathan Chang et al.

ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments

Taewoong Kim, Cheolhong Min, Byeonghwi Kim et al.

TANGO: Training-free Embodied AI Agents for Open-world Tasks

Filippo Ziliotto, Tommaso Campari, Luciano Serafini et al.

ACC-Collab: An Actor-Critic Approach to Multi-Agent LLM Collaboration

Andrew Estornell, Jean-Francois Ton, Yuanshun Yao et al.

Scaling Autonomous Agents via Automatic Reward Modeling And Planning

Zhenfang Chen, Delin Chen, Rui Sun et al.

Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations

Yongyuan Liang, Yanchao Sun, Ruijie Zheng et al.

ConcaveQ: Non-monotonic Value Function Factorization via Concave Representations in Deep Multi-Agent Reinforcement Learning

Huiqun Li, Hanhan Zhou, Yifei Zou et al.

AAAI 2024arXiv:2312.15555

value function factorizationmulti-agent reinforcement learningnon-monotonic mixing functionsconcave representations+3

12

citations

#77

Learning Efficient and Robust Multi-Agent Communication via Graph Information Bottleneck

Shifei Ding, Wei Du, Ling Ding et al.

SQLFixAgent: Towards Semantic-Accurate Text-to-SQL Parsing via Consistency-Enhanced Multi-Agent Collaboration

Jipeng Cen, Jiaxin Liu, Zhixu Li et al.

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Yiran Qin, Li Kang, Xiufeng Song et al.

Open the Black Box: Step-based Policy Updates for Temporally-Correlated Episodic Reinforcement Learning

Ge Li, Hongyi Zhou, Dominik Roth et al.

UNEX-RL: Reinforcing Long-Term Rewards in Multi-Stage Recommender Systems with UNidirectional EXecution

Gengrui Zhang, Xiaoshuang Chen, Yao WANG et al.

AAAI 2024arXiv:2401.06470

reinforcement learningmulti-stage recommender systemsmulti-agent reinforcement learninglong-term rewards+4

11

citations

#82

Skill Expansion and Composition in Parameter Space

Tenglong Liu, Jianxiong Li, Yinan Zheng et al.

Stabilizing Reinforcement Learning in Differentiable Multiphysics Simulation

Eliot Xing, Vernon Luk, Jean Oh

Learning Decentralized Partially Observable Mean Field Control for Artificial Collective Behavior

Kai Cui, Sascha Hauck, Christian Fabian et al.

General Scene Adaptation for Vision-and-Language Navigation

Haodong Hong, Yanyuan Qiao, Sen Wang et al.

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

Hao Li, Xiaogeng Liu, CHIU Chun et al.

NeurIPS 2025arXiv:2506.12104

prompt injection attacksagentic systems securitydynamic rule enforcementmemory stream isolation+4

10

citations

#87

Pareto Set Learning for Multi-Objective Reinforcement Learning

Erlong Liu, Yu-Chang Wu, Xiaobin Huang et al.

Adaptive Anytime Multi-Agent Path Finding Using Bandit-Based Large Neighborhood Search

Thomy Phan, Taoan Huang, Bistra Dilkina et al.

AAAI 2024arXiv:2312.16767

multi-agent path findinglarge neighborhood searchbandit-based optimizationonline learning+4

10

citations

#89

Not All Tasks Are Equally Difficult: Multi-Task Deep Reinforcement Learning with Dynamic Depth Routing

Jinmin He, Kai Li, Yifan Zang et al.

AAAI 2024arXiv:2312.14472

multi-task reinforcement learningdynamic depth routingparameter sharingrouting network+3

10

citations

#90

Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households

Zhihao Cao, ZiDong Wang, Siwen Xie et al.

A Single Goal is All You Need: Skills and Exploration Emerge from Contrastive RL without Rewards, Demonstrations, or Subgoals

Grace Liu, Michael Tang, Benjamin Eysenbach

ICLR 2025arXiv:2408.05804

contrastive reinforcement learningskill emergencedirected explorationreward-free learning+2

10

citations

#92

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds

Zhiyong Wang, Dongruo Zhou, John C.S. Lui et al.

Rethinking Adversarial Policies: A Generalized Attack Formulation and Provable Defense in RL

Xiangyu Liu, Souradip Chakraborty, Yanchao Sun et al.

BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

Andy Zhang, Joey Ji, Celeste Menders et al.

NeurIPS 2025arXiv:2505.15216

cybersecurity ai agentsvulnerability detectionbug bounty programsexploit generation+4

9

citations

#95

ConfigX: Modular Configuration for Evolutionary Algorithms via Multitask Reinforcement Learning

Hongshu Guo, Zeyuan Ma, Jiacheng Chen et al.

TraF-Align: Trajectory-aware Feature Alignment for Asynchronous Multi-agent Perception

Zhiying Song, Lei Yang, Fuxi Wen et al.

Federated Contextual Cascading Bandits with Asynchronous Communication and Heterogeneous Users

Hantao Yang, Xutong Liu, Zhiyong Wang et al.

AAAI 2024arXiv:2402.16312

federated learningcontextual banditscascading banditsasynchronous communication+4

9

citations

#98

GUARDIAN: Safeguarding LLM Multi-Agent Collaborations with Temporal Graph Modeling

Jialong Zhou, Lichao Wang, Xiao Yang

MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem

Fan LIU, Zherui Yang, Cancheng Liu et al.

Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees

Yifei Zhou, Ayush Sekhari, Yuda Song et al.

ICLR 2024

8

citations

Multi-Agent RL

Top Conferences

Related Topics (Reinforcement Learning)

Top Papers

A Generalist Agent

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

Mixture-of-Agents Enhances Large Language Model Capabilities

Why Do Multi-Agent LLM Systems Fail?

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning

Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control

Agent S: An Open Agentic Framework that Uses Computers Like a Human

Reliable Conflictive Multi-View Learning

OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation

OGBench: Benchmarking Offline Goal-Conditioned RL

WebPilot: A Versatile and Autonomous Multi-Agent System for Web Task Execution with Strategic Exploration

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

GuardAgent: Safeguard LLM Agents via Knowledge-Enabled Reasoning

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

DSBench: How Far Are Data Science Agents from Becoming Data Science Experts?

Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

RE-Bench: Evaluating Frontier AI R&D Capabilities of Language Model Agents against Human Experts

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML

AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Jumanji: a Diverse Suite of Scalable Reinforcement Learning Environments in JAX

PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks

Self-Evolving Multi-Agent Collaboration Networks for Software Development

Dual RL: Unification and New Methods for Reinforcement and Imitation Learning

ShieldAgent: Shielding Agents via Verifiable Safety Policy Reasoning

ReMA: Learning to Meta-Think for LLMs with Multi-agent Reinforcement Learning

V-IRL: Grounding Virtual Intelligence in Real Life

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning

System 1.x: Learning to Balance Fast and Slow Planning with Language Models

Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs

ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding

Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning

Cooper: Coordinating Specialized Agents towards a Complex Dialogue Goal

KABB: Knowledge-Aware Bayesian Bandits for Dynamic Expert Coordination in Multi-Agent Systems

ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents

Multi-Agent Collaboration via Evolving Orchestration

Entity-Centric Reinforcement Learning for Object Manipulation from Pixels

ResearchTown: Simulator of Human Research Community

Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving

G-Memory: Tracing Hierarchical Memory for Multi-Agent Systems

Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning

Flow: Modularized Agentic Workflow Automation

GOAL: A Generalist Combinatorial Optimization Agent Learner

Agent-Oriented Planning in Multi-Agent Systems

Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks

Minimum Coverage Sets for Training Robust Ad Hoc Teamwork Agents

REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites

Traffic Flow Optimisation for Lifelong Multi-Agent Path Finding

SiriuS: Self-improving Multi-agent Systems via Bootstrapped Reasoning

Raw2Drive: Reinforcement Learning with Aligned World Models for End-to-End Autonomous Driving (in CARLA v2)

Bridging Distributional and Risk-sensitive Reinforcement Learning with Provable Regret Bounds

Multiagent Multitraversal Multimodal Self-Driving: Open MARS Dataset

Stitching Sub-trajectories with Conditional Diffusion Model for Goal-Conditioned Offline RL

RGMComm: Return Gap Minimization via Discrete Communications in Multi-Agent Reinforcement Learning

Reinforce LLM Reasoning through Multi-Agent Reflection

AutoRedTeamer: Autonomous Red Teaming with Lifelong Attack Integration

ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems

Horizon Reduction Makes RL Scalable

SAFE: Multitask Failure Detection for Vision-Language-Action Models

AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench

Simulating Human-like Daily Activities with Desire-driven Autonomy

FoX: Formation-Aware Exploration in Multi-Agent Reinforcement Learning

MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments

TANGO: Training-free Embodied AI Agents for Open-world Tasks

ACC-Collab: An Actor-Critic Approach to Multi-Agent LLM Collaboration

Scaling Autonomous Agents via Automatic Reward Modeling And Planning

Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations

ConcaveQ: Non-monotonic Value Function Factorization via Concave Representations in Deep Multi-Agent Reinforcement Learning