深度学习表示理论

1. 引言

深度学习的核心问题之一是：神经网络究竟学到了什么表示？ 这些表示具有怎样的结构和规律？近年来，表示理论（Representation Theory）取得了重要进展，MIT CSAIL团队提出的典型表示假说（Canonical Representation Hypothesis, CRH）¹和NeurIPS 2025的熵力理论²为这一问题提供了新的视角。

本章将系统介绍深度学习表示理论的核心进展：

典型表示假说（CRH）：六条对齐关系
熵力理论：表示学习动态的新视角
表示的普适性与特异性之争
从机制可解释性到组合可解释性的演进

2. 典型表示假说（Canonical Representation Hypothesis）

2.1 核心思想

典型表示假说¹提出：神经网络表示的形成遵循一套普遍的规律，这些规律不依赖于具体任务、数据集或架构细节。

具体而言，CRH主张存在六条对齐关系（Alignment Relations），刻画了神经网络内部表示的结构特征。

2.2 六条对齐关系

2.2.1 表示-功能对齐（Representation-Function Alignment）

定义：对于任务相关的概念，神经网络的内部表示与功能输出之间存在对齐关系。

形式化：设 $h_{i} (x) \in R^{d}$ 为第 $i$ 层对输入 $x$ 的表示， $f (x) \in R^{K}$ 为网络输出。表示-功能对齐程度定义为：

RFA_{i} = CCA (h_{i} (X), f (X))

其中 $CCA$ 为典型相关分析， $X$ 为输入分布。

2.2.2 层间对齐（Inter-layer Alignment）

定义：深层表示可以通过线性变换从前层表示预测。

设 $h_{l}$ 和 $h_{l + 1}$ 为相邻层的表示。层间对齐度定义为：

ILA_{l} = \frac{∥ U ^{T} h _{l} - h _{l + 1} ∥ _{F}^{2}}{∥ h _{l + 1} ∥ _{F}^{2}}

其中 $U$ 为最优线性投影矩阵。

2.2.3 表示-数据流形对齐（Representation-Manifold Alignment）

定义：神经网络表示空间的几何结构反映了数据流形的几何结构。

这一关系与信息瓶颈理论和黎曼几何泛化理论有深刻联系。

2.2.4 表示-任务对齐（Representation-Task Alignment）

定义：不同任务在表示空间中有不同的几何组织结构。

相关任务在表示空间中倾向于聚集，形成任务超平面。

2.2.5 泛化-表示对齐（Generalization-Representation Alignment）

定义：泛化能力强的网络具有更规则的表示结构。

这一假说与平坦最小值理论相关——平坦最优解对应更规则的表示。

2.2.6 优化-表示对齐（Optimization-Representation Alignment）

定义：优化过程（梯度下降）偏好产生特定类型的表示结构。

这与隐式正则化理论直接相关。

2.3 CRH的证据

CRH得到了多方面的实验支持：

实验	结果	支持的假说
不同架构对比	ResNet/ViT/DenseNet学到的表示有共同结构特征	普适性
不同数据集	MNIST/CIFAR/ImageNet的表示形成规律的几何结构	层间对齐
不同初始化	训练后表示趋于相似的几何结构	优化-表示对齐
不同优化器	SGD/Adam产生不同但可预测的表示模式	优化-表示对齐

2.4 与其他理论的关系

2.4.1 与神经崩塌（Neural Collapse）的联系

神经崩塌现象描述了训练末期表示的类内压缩、类间分离结构。CRH提供了更一般的框架：

现象	描述	与CRH的关系
神经崩塌	类内表示→同一中心，类间→Equiangular tight frame	CRH的特例（分类任务）
CRH	六条对齐关系涵盖更广泛的现象	更一般的框架

2.4.2 与特征几何理论的联系

CRH的六条对齐关系可以从特征几何的角度理解：

表示-功能对齐 → 表示空间的语义结构
层间对齐 → 表示空间的几何一致性
表示-数据流形对齐 → 嵌入流形与数据流形的对应

3. 熵力理论（Entropic Force Theory）

3.1 核心思想

NeurIPS 2025的论文²提出用熵力（Entropic Force）框架来理解神经网络的表示学习动态。

核心假设：神经网络中的表示形成过程类似于物理系统中的熵增过程，信息从集中在少数神经元分散到更广泛的激活模式。

3.2 形式化

设神经网络参数 $θ$ 对输入 $x$ 的激活模式为 $a (x, θ) \in R^{n}$ 。

激活熵定义为：

S (a) = - k = 1 \sum n p_{k} lo g p_{k}, p_{k} = \frac{∣ a _{k} ∣}{\sum _{j} ∣ a _{j} ∣}

熵力定义为激活熵的梯度：

F_{e n t ro p i c} = \nabla_{θ} S (a (x, θ))

3.3 训练动态的熵力解释

3.3.1 早期训练：低熵状态

初始阶段，激活模式高度集中，熵力驱动激活分散到更多神经元。

\frac{d S}{d t} > 0 （训练初期）

3.3.2 中期训练：熵稳定

随着训练进行，激活分布趋于稳定，熵力与梯度力达到平衡。

\frac{d S}{d t} \approx 0 （训练中期）

3.3.3 后期训练：选择性集中

在特定维度上，可能出现选择性集中，熵力反向作用。

\frac{d S}{d t} < 0 （训练后期，特定维度）

3.4 熵力与表示学习的关系

阶段	熵力方向	表示特征	与CRH的关系
早期	分散	激活遍布多数神经元	层间对齐的建立
中期	平衡	表示空间结构化	表示-功能对齐
后期	选择性集中	关键特征突出	泛化-表示对齐

3.5 与其他理论框架的关系

3.5.1 与信息论框架的联系

熵力理论可以视为信息论框架的动力学版本：

信息瓶颈最小化 $I (X; Z) - β I (Z; Y)$ → 熵力驱动表示压缩
最大熵原则 → 熵力分散激活

3.5.2 与对比学习的联系

对比学习中的infoNCE损失可以解释为一种负熵力：

L_{NCE} = - lo g \frac{exp ( sim ( z _{i} , z _{i}^{+} ) / τ )}{\sum _{j} exp ( sim ( z _{i} , z _{j} ) / τ )}

这一损失驱动正样本聚集（降低表示熵），负样本分散（提高负样本多样性）。

4. 表示的普适性与特异性之争

4.1 问题背景

Nature Machine Intelligence 2025年的研究³通过社区竞赛形式，系统探究了以下问题：

不同神经网络架构学到的表示究竟是通用的机制还是模型特有的模式？

4.2 实验设计

研究设计了多层竞赛：

Level 1：表示相似性分析（使用CCA、DIC等度量）
Level 2：跨架构迁移性能
Level 3：表示结构的功能角色分析

4.3 主要发现

4.3.1 普适性证据

不同架构（CNN vs Transformer vs MLP）在中层表示上表现出显著相似性
跨架构迁移的性能差异小于随机猜测的预期
某些表示模式（如语义聚类）在所有架构中普遍存在

4.3.2 特异性证据

输出层和浅层表示高度架构依赖
特定任务的最优表示结构因架构而异
训练动态的细节（优化器、超参数）显著影响最终表示

4.3.3 综合结论

表示同时具有普适性和特异性，关键在于表示的层次：

表示层次	普适性	特异性
浅层特征	低	高（边缘检测等）
中层语义	高	中
深层任务相关	中	高

4.4 理论解释

这一发现可以用CRH的层次性来解释：

底层对齐（如表示-数据流形对齐）具有普适性
高层对齐（如表示-功能对齐）具有特异性
架构差异主要影响高层的具体实现方式

5. 从机制可解释性到组合可解释性

5.1 机制可解释性的局限性

传统机制可解释性（Mechanistic Interpretability）主要关注：

发现电路（circuits）：特定计算子图
分析注意力头的功能角色
追踪信息流

然而，这种方法存在局限：

局限性	描述
粒度过细	电路级别分析难以捕捉高层语义
可扩展性差	复杂任务的电路分析不可行
缺乏组合结构	难以解释新组合场景下的行为

5.2 组合可解释性框架

arXiv 2026的新论文⁴提出组合可解释性（Compositional Interpretability）作为补充：

核心思想：神经网络的表示形成层级化的组合结构：

高层语义 ←← 组合 ←← 中层特征 ←← 组合 ←← 底层基元

组合操作的类型：

操作	数学表示	示例
串联组合	$[v_{1}; v_{2}]$	多个特征的拼接
加权组合	$α_{1} v_{1} + α_{2} v_{2}$	特征融合
函数组合	$f (g (x))$	层级抽象

5.3 表示的组合结构

组合可解释性框架下的表示分析：

基元表示（Primitive Representations）：可直接解释的基本特征
组合规则（Composition Rules）：基元如何组合成复杂表示
抽象层次（Abstraction Levels）：从具体到抽象的层级

5.4 与SAE的结合

稀疏自编码器（SAE）可以视为组合可解释性的实现工具：

SAE学习到的字典元素对应基元表示
激活模式对应组合方式
组合的层级结构通过分析字典的组织来揭示

6. 表示理论与深度学习其他领域的联系

6.1 与泛化理论的联系

表示特征	泛化预测
表示的组合稀疏度	稀疏组合 → 好泛化
类间分离度（神经崩塌）	高分离 → 好泛化
表示空间曲率	低曲率 → 好泛化

6.2 与表示学习理论的联系

对比学习理论预测的表示结构：

正样本聚集 → 低类内方差
负样本分离 → 高类间方差

这与CRH的表示-功能对齐一致。

6.3 与缩放定律的联系

缩放定律可以从表示理论角度理解：

模型增大 → 表示容量增加
更多数据 → 表示空间的更细粒度组织
最终性能和涌现能力取决于表示的质量和组合性

7. 与现有Wiki内容的交叉引用

相关文档	联系
feature-geometry	特征几何与CRH的对应关系
neural-collapse	神经崩塌作为CRH的特例
contrastive-learning-theory	对比学习与表示对齐
information-bottleneck	信息瓶颈与表示压缩
riemannian-geometry-generalization-manifolds	黎曼几何与表示流形
sparse-autoencoders	SAE与组合可解释性
grokking-learning-dynamics	学习动态与表示形成

8. 总结与开放问题

8.1 本章要点

典型表示假说（CRH）：神经网络表示形成遵循六条普遍的对齐规律
熵力理论：表示学习动态可从熵力角度理解
普适性与特异性：不同层次的表示具有不同程度的普适性/特异性
组合可解释性：从微观电路到组合结构的视角转变

8.2 开放问题

CRH的验证：如何严格验证六条对齐关系的普适性？
熵力的精确动力学：能否建立精确的熵力-梯度力平衡方程？
表示的因果结构：表示空间的因果结构如何与学习动态相互作用？
跨模态表示：多模态学习中，表示如何对齐和组合？

8.3 实践启示

表示分析工具：使用CCA、DIC等度量分析表示结构
架构设计：关注促进表示对齐的架构特性
训练策略：监控表示熵等指标理解训练动态
可解释性：从组合角度设计可解释性工具

参考文献

相关阅读：

feature-geometry — 特征几何分析
neural-collapse — 神经崩塌现象
contrastive-learning-theory — 对比学习理论
sparse-autoencoders — 稀疏自编码器
information-bottleneck — 信息瓶颈理论

“Formation of Representations in Neural Networks: The Canonical Representation Hypothesis.” arXiv:2410.03006, 2024. ↩ ↩²
“Entropic Forces in Deep and Universal Representation Learning.” NeurIPS 2025. ↩ ↩²
“Are Neural Network Representations Universal or Idiosyncratic?” Nature Machine Intelligence 2025. ↩
“From Mechanistic to Compositional Interpretability.” arXiv:2605.08934, 2026. ↩

Metaphor

探索