机制可解释性专题

专题介绍

机制可解释性（Mechanistic Interpretability） 是通过逆向工程神经网络来理解其内部计算机制的研究领域。与传统的可解释AI方法不同，机制可解释性不仅关注”模型看到了什么”，更关注”模型是如何计算的”。

核心目标

┌─────────────────────────────────────────────────────────────────┐
│                    机制可解释性核心目标                           │
├─────────────────────────────────────────────────────────────────┤
│  1. 识别电路（Circuits）：定位实现特定行为的模型组件             │
│  2. 理解计算：揭示组件如何协作完成计算                          │
│  3. 验证假设：通过干预实验验证因果关系                          │
│  4. 可操控性：利用理解来实现对模型行为的精确控制                │
└─────────────────────────────────────────────────────────────────┘

与其他可解释性方法的对比

方法类型	关注点	优点	缺点
事后解释	输入-输出映射	通用性强	无法解释内部机制
概念瓶颈	概念层表示	直观	需要额外监督
电路分析	组件级别	精确	规模受限
SAE分解	特征级别	可扩展	特征解释主观

知识体系结构

                    ┌─────────────────────┐
                    │  机制可解释性        │
                    └──────────┬──────────┘
                               │
         ┌─────────────────────┼─────────────────────┐
         │                     │                     │
         ▼                     ▼                     ▼
┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐
│  电路发现        │  │  特征表示        │  │  训练动态        │
│  Circuit        │  │  Representation │  │  Training       │
│  Discovery      │  │                 │  │  Dynamics       │
└────────┬────────┘  └────────┬────────┘  └────────┬────────┘
         │                     │                     │
    ┌────┴────┐           ┌────┴────┐           ┌────┴────┐
    │         │           │         │           │         │
    ▼         ▼           ▼         ▼           ▼         ▼
┌───────┐ ┌───────┐ ┌───────┐ ┌───────┐ ┌───────┐ ┌───────┐
│激活   │ │注意力  │ │SAE   │ │特征   │ │Grokking│ │双下降  │
│Patching│ │头分析 │ │分解  │ │几何   │ │      │ │      │
└───────┘ └───────┘ └───────┘ └───────┘ └───────┘ └───────┘

核心概念

1. 叠加问题（Superposition Problem）

神经网络需要表示的概念数量远超其神经元数量，因此通过叠加（Superposition）的方式让多个概念共享同一神经元。

数学形式：

假设有 $n$ 个概念需要表示
但只有 $d < n$ 个神经元
神经元激活形成 $d$ 维空间中的叠加态

解决方案：稀疏自编码器（SAE）

2. 电路（Circuit）

电路是由特定模型组件组成的子图，负责实现特定计算。

典型电路组件：

注意力头（Attention Heads）
MLP层
残差连接
嵌入向量

3. 归纳头（Induction Head）

归纳头是一种在Transformer中普遍存在的电路，能够进行”模式补全”。

工作原理：

定位之前的相似token
复制该token后的内容

文件导航

基础理论

文件	描述	难度
sparse-autoencoders	SAEs基础：叠加问题与解决方案	⭐
circuit-discovery	电路发现方法：激活 patching	⭐⭐
feature-geometry	特征几何：线性表示与叠加	⭐⭐
grokking-learning-dynamics	学习动态：记忆与泛化	⭐⭐⭐

SAEs进阶

文件	描述	难度
sparse-autoencoders-advanced-architectures	JumpReLU、Matryoshka、Tree SAEs	⭐⭐
gemma-scope-analysis	Gemma Scope完整分析	⭐⭐
saebench-benchmark-framework	SAEBench基准测试	⭐⭐
concept-bottleneck-sae	CB-SAE可解释可操控特征	⭐⭐⭐

应用专题

文件	描述	难度
multimodal-sae-vision-language	视觉-语言模型SAE	⭐⭐⭐
protein-language-model-interpretability	蛋白LM可解释性	⭐⭐⭐
feature-steering-sae	特征操控与模型控制	⭐⭐
sparse-feature-circuits	基于SAE的电路发现	⭐⭐⭐

电路分析方法

文件	描述	难度
circuit-analysis-methodology	电路分析基础：激活修补、路径归因	⭐⭐
circuit-hypothesis-testing	电路假说验证：统计检验框架	⭐⭐⭐
a-implies-b-circuit-analysis	NeurIPS 2025: 命题逻辑推理电路分析	⭐⭐⭐
qa-circuit-analysis	抽取式问答电路分析	⭐⭐⭐
fine-tuning-circuit-analysis	微调机制电路分析	⭐⭐⭐
self-attention-circuit-mechanisms	自注意力电路机制：Induction Head	⭐⭐
compositional-generalization-circuit	可组合泛化电路分析	⭐⭐⭐

学习路径

入门路径（建议学习顺序）

第1步：理解叠加问题
    ↓
    [[sparse-autoencoders]] (基础)
    ↓
第2步：掌握电路发现方法
    ↓
    [[circuit-discovery]]
    ↓
第3步：分析特征表示
    ↓
    [[feature-geometry]]
    ↓
第4步：探索高级SAE架构
    ↓
    [[sparse-autoencoders-advanced-architectures]]
    ↓
第5步：实践特征操控
    ↓
    [[feature-steering-sae]]

进阶路径

    ┌──────────────────────────────────────┐
    │  高级电路分析                          │
    │  ├── [[sparse-feature-circuits]]      │
    │  ├── 电路验证与因果干预                │
    │  └── 多电路协作分析                    │
    └──────────────────────────────────────┘
                        │
                        ▼
    ┌──────────────────────────────────────┐
    │  大规模可解释性                        │
    │  ├── [[gemma-scope-analysis]]         │
    │  ├── 跨模型对比                        │
    │  └── 特征目录构建                      │
    └──────────────────────────────────────┘
                        │
                        ▼
    ┌──────────────────────────────────────┐
    │  应用与实践                            │
    │  ├── [[feature-steering-sae]]         │
    │  ├── 安全对齐应用                      │
    │  └── 知识编辑应用                      │
    └──────────────────────────────────────┘

核心公式速查

SAE重构损失

L_{reco n} = ∥ x - g (f (x)) ∥_{2}^{2} + λ ∥ f (x) ∥_{1}

JumpReLU激活

JumpReLU (z; b) = max (0, z - b)

注意力贡献归因

A_{i, j}^{(h)} = \frac{exp ( Q _{i}^{(h)} K _{j}^{(h)} / d _{k} )}{\sum _{k} exp ( Q _{i}^{(h)} K _{k}^{(h)} / d _{k} )}

直接logit归因（DLA）

DLA_{t o k e n} = W_{U} \cdot (I - SAE) \cdot MLP_{o u t}

工具与框架

SAEs工具

工具	用途	链接
SAELens	SAE训练与分析	GitHub
TransformerLens	电路分析	GitHub
Neuronpedia	特征可视化	Website

分析工具

工具	用途
circuits-over-time	电路发现追踪
SAEBench	SAE基准测试
Feature Catalog	特征目录构建

重要论文

经典论文

Elhage et al. (2021) - “A Mathematical Framework for Transformer Circuits”
Bricken et al. (2023) - “Towards Monosemanticity”
Wang et al. (2022) - “Open World Contrastive Learning”

研究趋势

当前热点

趋势	描述	状态
SAE规模化	在更大模型上训练SAE	进行中
多模态SAE	视觉-语言模型可解释性	新兴
自动化解释	LLM辅助特征解释	探索中
因果验证	干预实验验证电路	成熟

开放问题

特征原子性：SAE特征是否真的是”原子”的？
跨层追踪：信息如何在层间流动？
组合泛化：如何表示组合概念？
安全应用：如何利用可解释性实现安全对齐？

实践项目建议

初级项目

SAE训练与可视化
- 在小型Transformer上训练SAE
- 可视化特征激活分布
- 工具：SAELens
电路发现
- 使用激活Patching发现归纳头
- 验证电路组件的因果作用
- 工具：TransformerLens

中级项目

Gemma Scope分析
- 使用开源Gemma Scope SAEs
- 分析特定功能的特征
- 构建特征目录
特征操控
- 实现基于SAE的模型控制
- 验证操控效果
- 评估对下游任务的影响

高级项目

自定义SAE架构
- 实现Matryoshka SAEs
- 在自定义模型上训练
- 对比不同架构效果
多模态可解释性
- 分析视觉-语言模型
- 跨模态特征对应
- 幻觉检测应用

常见问题

Q1: SAE和传统字典学习有什么区别？

SAE本质上是带稀疏性约束的字典学习。主要区别在于：

SAE使用神经网络编码器/解码器
稀疏性约束通常使用L1或Top-K
可端到端训练

Q2: 如何判断一个特征解释是否正确？

推荐方法：

多样本验证：在多个不同上下文中测试
干预实验：激活/抑制特征验证行为变化
消融分析：移除特征观察影响
对比分析：与相关特征对比

Q3: 为什么浅层和深层的特征不同？

这与Transformer的层级结构有关：

浅层：处理词汇、语法等基础特征
中层：处理语义、实体等中级抽象
深层：处理推理、规划等高级概念

这类似于人类语言处理从词汇识别到语义理解的过程。

Q4: SAE特征是否稳定？

存在一定的变异性：

不同随机种子训练的SAE可能学到不同的特征
特征数量、稀疏度等超参数影响特征结构
但核心语义特征通常在多种配置下保持一致

更新日志

日期	更新内容
2026-05-16	添加电路分析方法论、假说验证、NeurIPS 2025命题逻辑推理电路分析、抽取式问答电路、微调机制分析、自注意力电路机制、可组合泛化电路
2026-05-12	添加SAE高级架构、Gemma Scope分析文档
2026-05-01	添加电路发现、特征几何文档
2026-05-01	创建专题索引

参考链接

专题最后更新：2026-05-12

探索

机制可解释性专题

机制可解释性专题

专题介绍

核心目标

与其他可解释性方法的对比

知识体系结构

核心概念

1. 叠加问题（Superposition Problem）

2. 电路（Circuit）

3. 归纳头（Induction Head）

文件导航

基础理论

SAEs进阶

应用专题

电路分析方法

学习路径

入门路径（建议学习顺序）

进阶路径

核心公式速查

SAE重构损失

JumpReLU激活

注意力贡献归因

直接logit归因（DLA）

工具与框架

SAEs工具

分析工具

重要论文

经典论文

最新进展

研究趋势

当前热点

开放问题

实践项目建议

初级项目

中级项目

高级项目

常见问题

Q1: SAE和传统字典学习有什么区别？

Q2: 如何判断一个特征解释是否正确？

Q3: 为什么浅层和深层的特征不同？

Q4: SAE特征是否稳定？

更新日志

参考链接