Nathan Kallus

32

Papers

57

Total Citations

Papers (32)

Provable Offline Preference-Based Reinforcement Learning

$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

Value-Guided Search for Efficient Chain-of-Thought Reasoning

GST-UNet: A Neural Framework for Spatiotemporal Causal Inference with Time-Varying Confounding

Estimating Structural Disparities for Face Models

Peeking with PEAK: Sequential, Nonparametric Composite Hypothesis Tests for Means of Multiple Data Streams

Inferring the Long-Term Causal Effects of Long-Term Treatments from Short-Term Experiments

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning

Switching the Loss Reduces the Cost in Batch Reinforcement Learning

Assessing Disparate Impact of Personalized Interventions: Identifiability and Bounds

Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic Policies

Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning

Control Variates for Slate Off-Policy Evaluation

Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning

Post-Contextual-Bandit Inference

Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems

What's the Harm? Sharp Bounds on the Fraction Negatively Affected by Treatment

The Implicit Delta Method

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning

Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage

Future-Dependent Value-Based Off-Policy Evaluation in POMDPs

Recursive Partitioning for Personalization using Observational Data

Residual Unfairness in Fair Machine Learning from Prejudiced Data

Classifying Treatment Responders Under Causal Effect Monotonicity

Confounding-Robust Policy Improvement

Removing Hidden Confounding by Experimental Grounding

Balanced Policy Evaluation and Learning

Causal Inference with Noisy and Missing Covariates via Matrix Factorization

Deep Generalized Method of Moments for Instrumental Variable Analysis

Intrinsically Efficient, Stable, and Bounded Off-Policy Evaluation for Reinforcement Learning

The Fairness of Risk Scores Beyond Classification: Bipartite Ranking and the XAUC Metric

Policy Evaluation with Latent Confounders via Optimal Balance