机制可解释性专题

专题介绍

机制可解释性(Mechanistic Interpretability) 是通过逆向工程神经网络来理解其内部计算机制的研究领域。与传统的可解释AI方法不同,机制可解释性不仅关注”模型看到了什么”,更关注”模型是如何计算的”。

核心目标

┌─────────────────────────────────────────────────────────────────┐
│                    机制可解释性核心目标                           │
├─────────────────────────────────────────────────────────────────┤
│  1. 识别电路(Circuits):定位实现特定行为的模型组件             │
│  2. 理解计算:揭示组件如何协作完成计算                          │
│  3. 验证假设:通过干预实验验证因果关系                          │
│  4. 可操控性:利用理解来实现对模型行为的精确控制                │
└─────────────────────────────────────────────────────────────────┘

与其他可解释性方法的对比

方法类型关注点优点缺点
事后解释输入-输出映射通用性强无法解释内部机制
概念瓶颈概念层表示直观需要额外监督
电路分析组件级别精确规模受限
SAE分解特征级别可扩展特征解释主观

知识体系结构

                    ┌─────────────────────┐
                    │  机制可解释性        │
                    └──────────┬──────────┘
                               │
         ┌─────────────────────┼─────────────────────┐
         │                     │                     │
         ▼                     ▼                     ▼
┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐
│  电路发现        │  │  特征表示        │  │  训练动态        │
│  Circuit        │  │  Representation │  │  Training       │
│  Discovery      │  │                 │  │  Dynamics       │
└────────┬────────┘  └────────┬────────┘  └────────┬────────┘
         │                     │                     │
    ┌────┴────┐           ┌────┴────┐           ┌────┴────┐
    │         │           │         │           │         │
    ▼         ▼           ▼         ▼           ▼         ▼
┌───────┐ ┌───────┐ ┌───────┐ ┌───────┐ ┌───────┐ ┌───────┐
│激活   │ │注意力  │ │SAE   │ │特征   │ │Grokking│ │双下降  │
│Patching│ │头分析 │ │分解  │ │几何   │ │      │ │      │
└───────┘ └───────┘ └───────┘ └───────┘ └───────┘ └───────┘

核心概念

1. 叠加问题(Superposition Problem)

神经网络需要表示的概念数量远超其神经元数量,因此通过叠加(Superposition)的方式让多个概念共享同一神经元。

数学形式

  • 假设有 个概念需要表示
  • 但只有 个神经元
  • 神经元激活形成 维空间中的叠加态

解决方案:稀疏自编码器(SAE)

2. 电路(Circuit)

电路是由特定模型组件组成的子图,负责实现特定计算。

典型电路组件

  • 注意力头(Attention Heads)
  • MLP层
  • 残差连接
  • 嵌入向量

3. 归纳头(Induction Head)

归纳头是一种在Transformer中普遍存在的电路,能够进行”模式补全”。

工作原理

  1. 定位之前的相似token
  2. 复制该token后的内容

文件导航

基础理论

文件描述难度
sparse-autoencodersSAEs基础:叠加问题与解决方案
circuit-discovery电路发现方法:激活 patching⭐⭐
feature-geometry特征几何:线性表示与叠加⭐⭐
grokking-learning-dynamics学习动态:记忆与泛化⭐⭐⭐

SAEs进阶

文件描述难度
sparse-autoencoders-advanced-architecturesJumpReLU、Matryoshka、Tree SAEs⭐⭐
gemma-scope-analysisGemma Scope完整分析⭐⭐
saebench-benchmark-frameworkSAEBench基准测试⭐⭐
concept-bottleneck-saeCB-SAE可解释可操控特征⭐⭐⭐

应用专题

文件描述难度
multimodal-sae-vision-language视觉-语言模型SAE⭐⭐⭐
protein-language-model-interpretability蛋白LM可解释性⭐⭐⭐
feature-steering-sae特征操控与模型控制⭐⭐
sparse-feature-circuits基于SAE的电路发现⭐⭐⭐

电路分析方法

文件描述难度
circuit-analysis-methodology电路分析基础:激活修补、路径归因⭐⭐
circuit-hypothesis-testing电路假说验证:统计检验框架⭐⭐⭐
a-implies-b-circuit-analysisNeurIPS 2025: 命题逻辑推理电路分析⭐⭐⭐
qa-circuit-analysis抽取式问答电路分析⭐⭐⭐
fine-tuning-circuit-analysis微调机制电路分析⭐⭐⭐
self-attention-circuit-mechanisms自注意力电路机制:Induction Head⭐⭐
compositional-generalization-circuit可组合泛化电路分析⭐⭐⭐

学习路径

入门路径(建议学习顺序)

第1步:理解叠加问题
    ↓
    [[sparse-autoencoders]] (基础)
    ↓
第2步:掌握电路发现方法
    ↓
    [[circuit-discovery]]
    ↓
第3步:分析特征表示
    ↓
    [[feature-geometry]]
    ↓
第4步:探索高级SAE架构
    ↓
    [[sparse-autoencoders-advanced-architectures]]
    ↓
第5步:实践特征操控
    ↓
    [[feature-steering-sae]]

进阶路径

    ┌──────────────────────────────────────┐
    │  高级电路分析                          │
    │  ├── [[sparse-feature-circuits]]      │
    │  ├── 电路验证与因果干预                │
    │  └── 多电路协作分析                    │
    └──────────────────────────────────────┘
                        │
                        ▼
    ┌──────────────────────────────────────┐
    │  大规模可解释性                        │
    │  ├── [[gemma-scope-analysis]]         │
    │  ├── 跨模型对比                        │
    │  └── 特征目录构建                      │
    └──────────────────────────────────────┘
                        │
                        ▼
    ┌──────────────────────────────────────┐
    │  应用与实践                            │
    │  ├── [[feature-steering-sae]]         │
    │  ├── 安全对齐应用                      │
    │  └── 知识编辑应用                      │
    └──────────────────────────────────────┘

核心公式速查

SAE重构损失

JumpReLU激活

注意力贡献归因

直接logit归因(DLA)


工具与框架

SAEs工具

工具用途链接
SAELensSAE训练与分析GitHub
TransformerLens电路分析GitHub
Neuronpedia特征可视化Website

分析工具

工具用途
circuits-over-time电路发现追踪
SAEBenchSAE基准测试
Feature Catalog特征目录构建

重要论文

经典论文

  1. Elhage et al. (2021) - “A Mathematical Framework for Transformer Circuits”
  2. Bricken et al. (2023) - “Towards Monosemanticity”
  3. Wang et al. (2022) - “Open World Contrastive Learning”

最新进展

  1. Templeton et al. (2024) - “Gemma Scope”
  2. Bussmann et al. (2025) - “Matryoshka SAEs” (ICML)
  3. Survey (2025) - “A Survey on Sparse Autoencoders” (EMNLP Findings)

研究趋势

当前热点

趋势描述状态
SAE规模化在更大模型上训练SAE进行中
多模态SAE视觉-语言模型可解释性新兴
自动化解释LLM辅助特征解释探索中
因果验证干预实验验证电路成熟

开放问题

  1. 特征原子性:SAE特征是否真的是”原子”的?
  2. 跨层追踪:信息如何在层间流动?
  3. 组合泛化:如何表示组合概念?
  4. 安全应用:如何利用可解释性实现安全对齐?

实践项目建议

初级项目

  1. SAE训练与可视化

    • 在小型Transformer上训练SAE
    • 可视化特征激活分布
    • 工具:SAELens
  2. 电路发现

    • 使用激活Patching发现归纳头
    • 验证电路组件的因果作用
    • 工具:TransformerLens

中级项目

  1. Gemma Scope分析

    • 使用开源Gemma Scope SAEs
    • 分析特定功能的特征
    • 构建特征目录
  2. 特征操控

    • 实现基于SAE的模型控制
    • 验证操控效果
    • 评估对下游任务的影响

高级项目

  1. 自定义SAE架构

    • 实现Matryoshka SAEs
    • 在自定义模型上训练
    • 对比不同架构效果
  2. 多模态可解释性

    • 分析视觉-语言模型
    • 跨模态特征对应
    • 幻觉检测应用

常见问题

Q1: SAE和传统字典学习有什么区别?

SAE本质上是带稀疏性约束的字典学习。主要区别在于:

  • SAE使用神经网络编码器/解码器
  • 稀疏性约束通常使用L1或Top-K
  • 可端到端训练

Q2: 如何判断一个特征解释是否正确?

推荐方法:

  1. 多样本验证:在多个不同上下文中测试
  2. 干预实验:激活/抑制特征验证行为变化
  3. 消融分析:移除特征观察影响
  4. 对比分析:与相关特征对比

Q3: 为什么浅层和深层的特征不同?

这与Transformer的层级结构有关:

  • 浅层:处理词汇、语法等基础特征
  • 中层:处理语义、实体等中级抽象
  • 深层:处理推理、规划等高级概念

这类似于人类语言处理从词汇识别到语义理解的过程。

Q4: SAE特征是否稳定?

存在一定的变异性:

  • 不同随机种子训练的SAE可能学到不同的特征
  • 特征数量、稀疏度等超参数影响特征结构
  • 但核心语义特征通常在多种配置下保持一致

更新日志

日期更新内容
2026-05-16添加电路分析方法论、假说验证、NeurIPS 2025命题逻辑推理电路分析、抽取式问答电路、微调机制分析、自注意力电路机制、可组合泛化电路
2026-05-12添加SAE高级架构、Gemma Scope分析文档
2026-05-01添加电路发现、特征几何文档
2026-05-01创建专题索引

参考链接


专题最后更新:2026-05-12

此文件夹下有16条笔记。