Yaodong Yang

37

Papers

67

Total Citations

Papers (37)

A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning

Amulet: ReAlignment During Test Time for Personalized Preference Adaptation of LLMs

RAT: Adversarial Attacks on Deep Reinforcement Agents for Targeted Behaviors

SAE-V: Interpreting Multimodal Models for Enhanced Alignment

Differentiable Information Enhanced Model-Based Reinforcement Learning

InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback

Sample-Efficient Multiagent Reinforcement Learning with Reset Replay

End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations

Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning

UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-Aware Curriculum and Iterative Generalist-Specialist Learning

Social World Model-Augmented Mechanism Design Policy Learning

Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning

Towards Efficient Collaboration via Graph Modeling in Reinforcement Learning

ProAgent: Building Proactive Cooperative Agents with Large Language Models

STAS: Spatial-Temporal Return Decomposition for Multi-Agent Reinforcement Learning

AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents

Safe Reinforcement Learning using Finite-Horizon Gradient-based Estimation

Team-PSRO for Learning Approximate TMECor in Large Team Games via Cooperative Reinforcement Learning

Hierarchical Multi-Agent Skill Discovery

Policy Space Diversity for Non-Transitive Games

NeurIPS 2023arXiv

Mean Field Multi-Agent Reinforcement Learning

Thermostat-assisted continuously-tempered Hamiltonian Monte Carlo for Bayesian learning

Replica-Exchange Nos\'e-Hoover Dynamics for Bayesian Learning on Large Datasets

Towards Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games

Neural Auto-Curricula in Two-Player Zero-Sum Games

Settling the Variance of Multi-Agent Policy Gradients

Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning

Constrained Update Projection Approach to Safe Policy Optimization

A Unified Diversity Measure for Multiagent Reinforcement Learning

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem

Meta-Reward-Net: Implicitly Differentiable Reward Learning for Preference-based Reinforcement Learning

MATE: Benchmarking Multi-Agent Reinforcement Learning in Distributed Target Coverage Control

A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning

Transformer-based Working Memory for Multiagent Reinforcement Learning with Action Parsing

Safety Gymnasium: A Unified Safe Reinforcement Learning Benchmark

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

Multi-Agent First Order Constrained Optimization in Policy Space