Xiaoteng Ma

7

Papers

0

Total Citations

Papers (7)

Learning Diverse Risk Preferences in Population-Based Self-Play

Single-Trajectory Distributionally Robust Reinforcement Learning

Believe What You See: Implicit Constraint Approach for Offline Multi-Agent Reinforcement Learning

Mildly Conservative Q-Learning for Offline Reinforcement Learning

RORL: Robust Offline Reinforcement Learning via Conservative Smoothing

Exploit Reward Shifting in Value-Based Deep-RL: Optimistic Curiosity-Based Exploration and Conservative Exploitation via Linear Reward Shaping

Cross-Domain Policy Adaptation via Value-Guided Data Filtering