Wen Sun

36

Papers

175

Total Citations

Papers (36)

Predictive-State Decoders: Encoding the Future into Recurrent Networks

NeurIPS 2017arXiv

Provable Offline Preference-Based Reinforcement Learning

Making RL with Preference-based Feedback Efficient via Randomization

Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF

Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds

$Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training

Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees

Value-Guided Search for Efficient Chain-of-Thought Reasoning

On Speeding Up Language Model Evaluation

Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics

Learning To Detect Mobile Objects From LiDAR Scans Without Labels

More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning

Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems

The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning

Contextual Bandits and Imitation Learning with Preference-Based Active Queries

Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage

Reward Finetuning for Faster and More Accurate Unsupervised Object Discovery

Future-Dependent Value-Based Off-Policy Evaluation in POMDPs

Selective Sampling and Imitation Learning via Online Regression

Learning to Filter with Predictive State Inference Machines

Safety-Aware Algorithms for Adversarial Contextual Bandit

Deeply AggreVaTeD: Differentiable Imitation Learning for Sequential Prediction

Recurrent Predictive State Policy Networks

Contextual Memory Trees

Provably Efficient Imitation Learning from Observation Alone

Dual Policy Iteration

Optimal Sketching for Kronecker Product Regression and Low Rank Approximation

Policy Poisoning in Batch Reinforcement Learning and Control

Multi-Robot Collision Avoidance under Uncertainty with Probabilistic Safety Barrier Certificates

PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning

Learning the Linear Quadratic Regulator from Nonlinear Observations

Information Theoretic Regret Bounds for Online Nonlinear Control

Constrained episodic reinforcement learning in concave-convex and knapsack settings

FLAMBE: Structural Complexity and Representation Learning of Low Rank MDPs

Mitigating Covariate Shift in Imitation Learning via Offline Data With Partial Coverage

MobILE: Model-Based Imitation Learning From Observation Alone