Zhuoran Yang

53

Papers

21

Total Citations

Papers (53)

Symmetric Mean-field Langevin Dynamics for Distributional Minimax Problems

More Supervision, Less Computation: Statistical-Computational Tradeoffs in Weakly Supervised Learning

NeurIPS 2016arXiv

Can Neural Networks Achieve Optimal Computational-statistical Tradeoff? An Analysis on Single-Index Model

Mean Field Langevin Actor-Critic: Faster Convergence and Global Optimality beyond Lazy Learning

Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF

A General Framework for Sequential Decision-Making under Adaptivity Constraints

How Does Goal Relabeling Improve Sample Efficiency?

Theory of Consistency Diffusion Models: Distribution Estimation Meets Fast Sampling

From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation

Human Memory Search as Initial-Visit Emitting Random Walk

Estimating High-dimensional Non-Gaussian Multiple Index Models via Stein’s Lemma

Pontryagin Differentiable Programming: An End-to-End Learning and Control Framework

Provably Efficient Neural Estimation of Structural Equation Models: An Adversarial Approach

Provably Efficient Neural GTD for Off-Policy Learning

Provably Efficient Reinforcement Learning with Kernel and Neural Function Approximations

Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss

Can Temporal-Diﬀerence and Q-Learning Learn Representation? A Mean-Field Theory

Risk-Sensitive Reinforcement Learning: Near-Optimal Risk-Sample Tradeoff in Regret

BooVI: Provably Efficient Bootstrapped Value Iteration

Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic

Pessimism Meets Invariance: Provably Efficient Offline Mean-Field Multi-Agent RL

Exponential Bellman Equation and Improved Regret Bounds for Risk-Sensitive Reinforcement Learning

Provably Efficient Causal Reinforcement Learning with Confounded Observational Data

Offline Constrained Multi-Objective Reinforcement Learning via Pessimistic Dual Value Iteration

A Near-Optimal Algorithm for Stochastic Bilevel Optimization via Double-Momentum

A Unifying Framework of Off-Policy General Value Function Evaluation

Learn to Match with No Regret: Reinforcement Learning in Markov Matching Markets

Exponential Family Model-Based Reinforcement Learning via Score Matching

Inducing Equilibria via Incentives: Simultaneous Design-and-Play Ensures Global Convergence

Relational Reasoning via Set Transformers: Provable Efficiency and Applications to MARL

Reinforcement Learning with Logarithmic Regret and Policy Switches

Maximize to Explore: One Objective Function Fusing Estimation, Planning, and Exploration

Posterior Sampling for Competitive RL: Function Approximation and Partial Observation

Online Performative Gradient Descent for Learning Nash Equilibria in Decision-Dependent Games

Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

Learning Regularized Monotone Graphon Mean-Field Games

Sparse Nonlinear Regression: Parameter Estimation under Nonconvexity

High-dimensional Non-Gaussian Single Index Models via Thresholded Score Function Estimation

The Edge Density Barrier: Computational-Statistical Tradeoffs in Combinatorial Inference

Fully Decentralized Multi-Agent Reinforcement Learning with Networked Agents

On the statistical rate of nonlinear recovery in generative models with heavy-tailed data

Provable Gaussian Embedding with One Observation

Multi-Agent Reinforcement Learning via Double Averaging Primal-Dual Optimization

Contrastive Learning from Pairwise Measurements

Statistical-Computational Tradeoff in Single Index Models

Neural Trust Region/Proximal Policy Optimization Attains Globally Optimal Policy

Policy Optimization Provably Converges to Nash Equilibria in Zero-Sum Linear Quadratic Games

Variance Reduced Policy Evaluation with Smooth Function Approximation

Provably Global Convergence of Actor-Critic: A Case for Linear Quadratic Regulator with Ergodic Cost

Neural Temporal-Difference Learning Converges to Global Optima

Convergent Policy Optimization for Safe Reinforcement Learning

Dynamic Regret of Policy Optimization in Non-Stationary Environments