Dmitrii Krasheninnikov

4

papers

746

total citations

papers (4)

Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Detecting High-Stakes Interactions with Activation Probes

NeurIPS 2025arXiv

Implicit meta-learning may lead language models to trust more reliable sources

Defining and Characterizing Reward Gaming