David Bau

19

Papers

503

Total Citations

Papers (19)

Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models

Linearity of Relation Decoding in Transformer Language Models

Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking

MIB: A Mechanistic Interpretability Benchmark

When Are Concepts Erased From Diffusion Models?

Seeing What a GAN Cannot Generate

Sketch Your Own GAN

Toward a Visual Concept Vocabulary for GAN Latent Space

Erasing Concepts from Diffusion Models

Rewriting a Deep Generative Model

What makes fake images detectable? Understanding properties that generalize

SliderSpace: Decomposing the Visual Capabilities of Diffusion Models

Network Dissection: Quantifying Interpretability of Deep Visual Representations

Learning Words by Drawing Images

Diverse Image Generation via Self-Conditioned GANs

Disentangling Visual and Written Concepts in CLIP

Editing a classifier by rewriting its prediction rules

Locating and Editing Factual Associations in GPT

FIND: A Function Description Benchmark for Evaluating Interpretability Methods