David Bau

16

Papers

510

Total Citations

Papers (16)

Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models

Linearity of Relation Decoding in Transformer Language Models

Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking

MIB: A Mechanistic Interpretability Benchmark

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

When Are Concepts Erased From Diffusion Models?

NeurIPS 2025arXiv

Diverse Image Generation via Self-Conditioned GANs

Disentangling Visual and Written Concepts in CLIP

Sketch Your Own GAN

Toward a Visual Concept Vocabulary for GAN Latent Space

Erasing Concepts from Diffusion Models

Rewriting a Deep Generative Model

What makes fake images detectable? Understanding properties that generalize

Editing a classifier by rewriting its prediction rules

NeurIPS 2021arXiv

Locating and Editing Factual Associations in GPT

NeurIPS 2022arXiv

FIND: A Function Description Benchmark for Evaluating Interpretability Methods

NeurIPS 2023arXiv