Joey Hong

4

Papers

91

Total Citations

Papers (4)

LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis

Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning

Learning to Explore in POMDPs with Informational Rewards