Yonatan Belinkov

13

Papers

659

Total Citations

1

Affiliations

Affiliations

Technion - Israel Institute of Technology

Papers (13)

Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models

Linearity of Relation Decoding in Transformer Language Models

Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking

Analyzing Hidden Representations in End-to-End Automatic Speech Recognition Systems

NeurIPS 2017arXiv

Arithmetic Without Algorithms: Language Models Solve Math with a Bag of Heuristics

MIB: A Mechanistic Interpretability Benchmark

Accelerating the Global Aggregation of Local Explanations

Editing Implicit Assumptions in Text-to-Image Diffusion Models

Unsupervised Translation of Emergent Communication

Investigating Gender Bias in Language Models Using Causal Mediation Analysis

IRM—when it works and when it doesn't: A test case of natural language inference

Locating and Editing Factual Associations in GPT

Measures of Information Reflect Memorization Patterns