Mohammad Ghavamzadeh

26

Papers

264

Total Citations

Papers (26)

Safe Policy Improvement by Minimizing Robust Baseline Regret

NeurIPS 2016arXiv

Conservative Contextual Linear Bandits

NeurIPS 2017arXiv

Does Thinking More Always Help? Mirage of Test-Time Scaling in Reasoning Models

Bayesian Regret Minimization in Offline Bandits

Policy Gradient for Coherent Risk Measures

Adaptive Sampling for Minimax Fair Classification

Private and Communication-Efficient Algorithms for Entropy Estimation

Robust Reinforcement Learning using Offline Data

Efficient Risk-Averse Reinforcement Learning

Operator Splitting Value Iteration

Offline Reinforcement Learning for Mixture-of-Expert Dialogue Management

Ordering-based Conditions for Global Convergence of Policy Gradient Methods

On Dynamic Programming Decompositions of Static Risk Measures in Markov Decision Processes

DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

High Confidence Policy Improvement

Active Learning for Accurate Estimation of Linear Models

Bottleneck Conditional Density Estimation

Model-Independent Online Learning for Influence Maximization

Online Learning to Rank in Stochastic Click Models

Path Consistency Learning in Tsallis Entropy Regularized MDPs

More Robust Doubly Robust Off-policy Evaluation

Garbage In, Reward Out: Bootstrapping Exploration in Multi-Armed Bandits

A Block Coordinate Ascent Algorithm for Mean-Variance Optimization

A Lyapunov-based Approach to Safe Reinforcement Learning

Tight Regret Bounds for Model-Based Reinforcement Learning with Greedy Policies

Online Planning with Lookahead Policies