概述
现代深度学习理论的核心问题归结为:为什么某些架构在特定任务上有效? 围绕四个相互关联的视角展开:
- 架构的归纳偏置(CNN/Transformer/GNN/Mamba/RWKV/xLSTM 的对称性结构)
- 训练末态几何(Neural Collapse、ETF、信息瓶颈、互信息最大化)
- 函数空间视角(Neural Hilbert Ladder、RKHS 链、通用逼近定理的”宽度无限 / 深度有限”对偶)
- 对称性原理(E(3)/SO(3) 等变性、Neural ODE、参数空间对称性)
主要结论:软归纳偏置 (soft inductive bias) + 灵活的假设空间 + 特征学习是统一理解良性过拟合、双下降、Neural Collapse 等现象的关键(Wilson, ICML 2025)。
一、几何深度学习:Erlangen 纲领
1.1 Bronstein et al. 2021:几何深度学习的统一框架
核心论文:Bronstein, M. M., Bruna, J., Cohen, T., Veličković, P. “Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges.” arXiv:2104.13478, 2021.
核心论点(“Erlangen Program of ML”):
- 19世纪 Felix Klein 用对称群统一几何学;这里用对称性统一深度学习架构
- 五种”几何”分别对应五种主流架构:
| 域(Domain) | 对称群 | 架构 |
|---|---|---|
| Grids(网格) | 平移群 | CNN |
| Groups(齐次空间) | 任意群 G | Group-equivariant CNN |
| Graphs(图) | 置换群 Sₙ | GNN / Message Passing |
| Geodesics(测地线/流形) | 微分同胚 | Chart-based networks |
| Gauges(规范) | 局部规范变换 | Principal bundle networks |
关键定理:在齐次空间 上的场 (field) 分解定理——任何 G-CNN 的特征图都等价于一个群表示矩阵下的张量积分解,这给出了 group equivariant convolution 的完备构造方案。
实践影响:是 E(3)-equivariant GNN(如 NequIP、Allegro)实现 AlphaFold 2 精度的理论基础。
1.2 Kondor 2025:等变网络的物理化学原理
核心论文:Kondor, R. “The principles behind equivariant neural networks for physics and chemistry.” PNAS 122(41) e2415656122, 2025.
核心论点:物理学/化学中的对称性必须硬编码到网络结构中,理由:
- 科学数据稀缺、昂贵,不能像 LLM 那样靠规模弥补
- 对称性是数学精确的(如 SO(3) 旋转、粒子交换反对称性),不是”近似”的
- 不嵌入对称性的模型会违反物理守恒律(角动量守恒、能量守恒)
关键构造:
- 不可约表示(irreps)分解:将特征分解到 SO(3) 的不可约表示空间
- Clebsch-Gordan 乘法作为等变非线性(这是真正”自然”的等变非线性,而非 ReLU)
- 适用于 SO(3)、O(3,1) Lorentz 群、置换群
应用:分子动力学(Allegro、NequIP)、宇宙学模拟、AlphaFold 2 中 Evoformer 的三角乘法更新(隐式利用 SE(3) 信息)。
二、Neural Collapse:训练末态几何理论
2.1 Papyan, Han, Donoho 2020:神经坍缩的核心现象
核心论文:Papyan, V., Han, X. Y., Donoho, D. L. “Prevalence of Neural Collapse during the terminal phase of deep learning training.” PNAS 117(40): 24652-24663, 2020.
背景:“Terminal Phase of Training” (TPT,训练末态)——训练误差首次归零后继续训练到 loss → 0 的阶段。
四个核心现象(NC1-NC4):
- NC1 (Variability collapse):同一类样本的最后一层特征塌缩到类均值
- NC2 (Simplex ETF):类均值(去均值后)等长、彼此夹角相等的等角紧框架 (Equiangular Tight Frame),即 , 全部相等
- NC3 (Self-duality):分类器权重(归一化后)与类均值对齐()
- NC4 (NCC 决策):测试时分类等价于”选最近的类均值”
关键定理(Theorem 1, PNAS):在 Unconstrained Features Model (UFM) 下,NC 的全局最优是上述 simplex ETF 配置——理论上证明 NC 不是巧合,而是损失函数的诱导偏置。
实证:在 VGG-19 / MobileNet / WideResNet-28 × CIFAR-10/100 / MNIST / ImageNet 上观察到 NC 在 TPT 出现,所有架构 × 所有数据集组合下,误差 < 。
2.2 Súkeník, Mondelli, Lampert 2023:Deep UFM 下的多层 NC
核心论文:Súkeník, P., Mondelli, M., Lampert, C. “Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained Features Model.” NeurIPS 2023.
关键贡献:证明 deep UFM 下多层 NC 是 provably optimal。
2.3 Hui, Belkin, Nakkiran 2022:NC 的局限
核心论文:Hui, L., Belkin, M., Nakkiran, P. “Limitations of Neural Collapse for Understanding Generalization in Deep Learning.” arXiv:2202.08384, 2022.
关键发现:NC 在某些非典型情形(如标签噪声、自监督)下会失效,NC 并非泛化的充分条件。
应用:NC 提供了”早停 vs. 训练到 0”的理论依据;也启发了 NC 引导的分类器设计(如 ETF classifier head, Prototypical Networks)。
三、信息瓶颈理论
3.1 Tishby & Zaslavsky 2015:经典信息瓶颈
核心论文:Tishby, N. & Zaslavsky, N. “Deep Learning and the Information Bottleneck Principle.” arXiv:1503.02406, 2015.
核心:信息瓶颈 (IB) 目标:
经典论断:DNN 训练分两阶段——
- 拟合 (fitting) 阶段: ↑, ↑
- 压缩 (compression) 阶段: ↓(对输入中与 Y 无关的信息丢弃)
3.2 Saxe et al. 2018:IB 理论的修正
核心论文:Saxe, A. et al. “On the Information Bottleneck Theory of Deep Learning.” ICLR 2018.
关键发现:用 MNIST/Fashion-MNIST 实验证明”压缩相”只在非线性 + 有限批训练 + 特定激活下出现,对 ReLU 等并不普遍。IB 理论需要修正。
3.3 Westphal, Hailes, Musolesi 2025:广义 IB
核心论文:Westphal, Hailes, Musolesi “A Generalized Information Bottleneck Theory of Deep Learning.” arXiv:2509.26327, 2025.
关键贡献:提出广义 IB 框架,能更准确预测 DNN 中的表示压缩。
地位:IB 至今仍是分析 DNN 表示压缩、信息瓶颈、遗忘等现象的标准信息论工具,但单一 IB 不能完全解释深度学习的成功。
四、互信息最大化的局限
4.1 Deep InfoMax (Hjelm et al. 2019)
核心论文:Hjelm, R. D. et al. “Learning deep representations by mutual information estimation and maximization.” ICLR 2019 (arXiv:1808.06670).
核心思想:通过最大化输入与全局特征/局部特征之间的互信息学习表示:
估计方法:用 Jensen-Shannon 散度的 neural estimator(MI-Net / MINE 思路)来估计 。
实验结果:在 CIFAR-10 / ImageNet 上的无监督表示上,线性评估准确率比当时 SOTA 高 ~5%。
4.2 后续发展
- CPC (Contrastive Predictive Coding, Oord et al., 2018):互信息在时间维度上的最大化
- SimCLR / MoCo / BYOL:对比学习可视为隐式的互信息最大化(虽然这有争议)
- Barlow Twins / VICReg:用 redundancy reduction 替代互信息
4.3 理论局限
核心论文:Tschannen, M. et al. “On Mutual Information Maximization for Representation Learning.” ICML 2020.
关键发现:证明MI 下界与下游分类性能的相关性很弱,互信息最大化不是好的表征学习目标。
结论:现代对比学习(SimCLR/MoCo)可视为间接 MI 最大化,但更准确的视角是 redundancy reduction(Barlow Twins / VICReg)。
五、神经 Hilbert Ladder:函数空间理论
5.1 Chen 2024:Neural Hilbert Ladder (NHL)
核心论文:Chen, Z. “Neural Hilbert Ladders: Multi-Layer Neural Networks in Function Space.” JMLR 25 (2024) 1-65 (arXiv:2307.02824).
核心思想:将 层神经网络视为 层 RKHS 的嵌套(“ladder”):
- 第 1 层 RKHS 由宽度无限的浅网络定义(Barron space)
- 第 层 RKHS 由第 层的”诱导核”递归定义
- 最终的”函数空间”是这 个 RKHS 的无限并集
5.2 NHL 的五个关键性质
- Width-unlimited:包含任意宽度隐藏层的 层网络能表示的函数
- 逼近保证:逼近误差由 NHL complexity 控制
- 泛化保证:通过 Rademacher complexity 给出
- 深度分离:存在 ReLU 激活下
- 特征学习:在 mean-field 极限下,GD 训练等价于 上的非马尔可夫随机动力学(这是 NTK 无法建模的)
地位:第一个同时满足 (1)-(5) 的函数空间刻画,统一了”逼近论”和”泛化论”两个视角,是 Barron 空间理论向深网络的自然推广。
5.3 关键定理汇总表
| 理论 | 适用架构 | 关键思想 |
|---|---|---|
| Universal Approximation (Cybenko 1989) | 任意宽度浅网络 | 密度性 |
| Barron Space (Barron 1993, Bach 2017) | 宽度无限浅网络 | 频谱衰减范数 |
| NTK (Jacot 2018) | 无限宽网络线性化 | 冻结核 RKHS |
| Neural Hilbert Ladder (Chen 2024) | 任意深度 | 递归 RKHS 链,特征学习 |
| 神经正切核归纳偏置 (Bietti & Mairal 2019) | 浅 CNN | NTK 与真网络的差距分析 |
| Hypothesis Spaces (Wang, Xu, Yan 2024) | DNN 全空间 | 双变量 DNN 视角 |
NHL 的独特地位:是首个同时涵盖 (i) 逼近、(ii) 泛化、(iii) 深度分离、(iv) 特征学习 的函数空间理论。
六、深度与宽度的对偶:Kidger & Lyons 2020
6.1 通用逼近的对偶命题
核心论文:Kidger, P. & Lyons, T. “Universal Approximation with Deep Narrow Networks.” COLT 2020, PMLR 125:1-22 (arXiv:1905.08539).
核心定理:任何有界深度但宽度受限的 ReLU 网络,在宽度 时即具备通用逼近性 (universal approximation)。具体:
- 对任意紧集 上的连续函数 ,对任意 ,
只要 足够大(与 的光滑度模数有关,依赖 Barron-type 常数)。
意义:经典通用逼近定理是”任意宽度 + 深度 1”;这里证明对偶命题:“任意深度 + 宽度 “也成立。深度不需要”任意”也能通用逼近——这为深窄网络(ResNet-style)提供了逼近论基础。
6.2 后续发展
- Lu et al. (NeurIPS 2017) “The Expressive Power of Neural Networks: A View from the Width”:宽度 是 ReLU 网络通用的最小宽度
- Hernández & Zuazua (2024) “Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks”:给出构造性证明与有限样本记忆
七、Mamba 与现代序列架构
7.1 Mamba (Gu & Dao 2024):选择性状态空间
核心论文:Gu, A. & Dao, T. “Mamba: Linear-Time Sequence Modeling with Selective State Spaces.” COLM 2024 Oral (arXiv:2312.00752).
核心创新:选择性状态空间模型 (selective SSM):
- 让 成为输入的函数(selective mechanism)
- 解决了 LSSL/S4 在离散、信息密集数据(如语言)上的弱归纳偏置
- 用硬件感知的并行扫描 (parallel scan),不需要 materializing expanded state
7.2 序列架构归纳偏置对比
| 架构 | 归纳偏置 | 时间复杂度 | 长度外推 |
|---|---|---|---|
| Transformer | 置换不变 + 因果掩码 + 位置编码 | 有限(KV cache) | |
| RNN/LSTM | 顺序马尔可夫 + 长程记忆门控 | 任意 | |
| S4/SSM | 线性时不变 + HiPPO 长程记忆 | 强(连续化) | |
| Mamba | 输入依赖选择性 + 线性扫描 | >1M tokens | |
| RWKV | 线性注意力 + 时序衰减 | 强 | |
| xLSTM | 扩展 LSTM(矩阵记忆 + 指数门控) | 强 |
7.3 Mamba 的关键实验
- Mamba-3B 超过同尺寸 Transformer,匹配 2× 尺寸 Transformer
- 在 selective copy 任务上外推至 1M+ tokens(Transformer 失败)
- DNA/音频模态上 FID 减半
- Park et al. (ICML 2024):“Can Mamba Learn How To Learn?”——Mamba 在 in-context learning 上弱于 Transformer
理论后续:Huang et al. (arXiv:2506.11891, 2025) 分析了 Mamba 的 selectivity 对逼近能力、记忆能力、关联回忆能力 的影响。
八、软归纳偏置 vs 硬归纳偏置的统一视角
8.1 Wilson 2025:软归纳偏置的统一原理
核心论文:Wilson, A. G. “Deep Learning is Not So Mysterious or Different.” ICML 2025, PMLR 267:82326-82346 (arXiv:2503.02113).
核心论点:深度学习的”异常”现象(良性过拟合、双下降、过参数化成功)不神秘——可用 PAC-Bayes 和可数假设空间界统一解释。
统一原理:Soft Inductive Biases(软归纳偏置)
与其约束假设空间避免过拟合,不如拥抱灵活假设空间,对简单解施加软偏好。
关键论断:
- 良性过拟合 = 假设空间的丰富性 + 隐式正则化偏好简单解
- 双下降 = 可数假设空间界的标准现象(早被 Opper, Haussler, Lugosi 等人证明)
- 深度学习的”特殊性”在于:
- 表示学习 (representation learning)
- 模式连通性 (mode connectivity,损失景观中存在连通等价解的低损耗路径)
- 相对普遍性(多任务可共用一个大型架构)
与硬归纳偏置(GDL)的关系:本文并非否定硬偏置,而是论证软偏置 + 灵活假设空间才是现代基础模型成功的核心。
8.2 Perin & Deny 2025:网络从数据学习对称性
核心论文:Perin, A. & Deny, S. “On the Ability of Deep Networks to Learn Symmetries from Data – A Neural Kernel Theory.” JMLR 26 (2025) 1-70.
核心问题:网络能否从数据中自动学习对称性(而不是 hard-code)?
理论框架:用 Neural Kernel(基于 NTK 的扩展)分析梯度流诱导的等变性涌现。
关键定理:
- 在适当的”对称性数据分布”下,过参数化网络的 NTK 的主导 eigenfunctions 是等变函数
- 等变性作为全局最优解自发涌现,无需显式约束
- 但有限宽度/有限数据下可能不涌现——给出涌现所需样本复杂度的界
实践意义:为”何时用硬等变 vs. 让网络自己学”提供理论判据。
8.3 Bencomo et al. 2025:架构与初始权重的偏置
核心论文:Bencomo, Gupta, Marinescu, McCoy, Griffiths “Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias.” arXiv:2502.20237, 2025.
实证发现:用 meta-learning 找初始权重,可显著消除架构差异——说明架构偏置不是唯一来源。
含义:归纳偏置既来自架构(hard bias),也来自初始化和训练算法的软偏好。
8.4 架构归纳偏置总结表
| 架构 | 数据域 | 内置对称性 | 偏置强度 |
|---|---|---|---|
| MLP | 无(仅输入维数) | 弱 | |
| CNN | 网格 | 平移等变 + 局部性 + 尺度分层 | 强 |
| Transformer | 集合 | 置换不变 + 因果掩码(decoder) | 中(依赖位置编码) |
| GNN / MPNN | 图 | 置换等变 + 局部消息传递 | 强 |
| E(3)-GNN | 点云 | 平移 + 旋转 + 反射 | 极强 |
| S4 / SSM | 序列 | 线性时不变 + HiPPO 长程记忆 | 强 |
| Mamba | 序列 | 输入选择性 + 线性扫描 | 中-强 |
| RWKV | 序列 | 线性注意力 + 时序衰减 | 中 |
| xLSTM | 序列 | 扩展 LSTM 门控 + 矩阵记忆 | 强 |
九、对称性与守恒律
9.1 核心数学对象
- 群 在集合 上的作用
- 不变性:(输出对群作用不变)
- 等变性:(输出按群表示变换)
- Noether 定理:连续对称性 守恒律
9.2 等变网络的关键构造
- 不可约表示分解 (irreps):特征分解到 的不可约表示
- Clebsch-Gordan 乘法:等变非线性(Kondor 2025)
- Steerable features:在齐次空间 上的局部特征
9.3 关键应用领域
- 物理/化学:NequIP、Allegro、AlphaFold 2
- 蛋白质设计:FrameDiff、Genie 2
- 分子动力学:MACE、GNoME
9.4 Neural ODE 的对称性
- Equivariant Manifold Neural ODEs (Andersdotter et al. JMLR 26, 2025):在 Lie 群作用于光滑流形 上的等变 NODE
- Steerable Neural ODEs on Homogeneous Spaces (2025):在 上的 steerable ODE
- Symmetry-regularized Neural ODEs (Hao, UCLA, 2023):用正则化诱导等变性
9.5 参数空间对称性
- Brea, Gerstner, Şimşek et al. (2021):证明参数空间的置换对称导致”对称诱导的鞍点”——L 层的 minimal width 乘积决定鞍点维度
- Zhao, Walters, Yu (2025) “Symmetry in Neural Network Parameter Spaces”:系统的参数空间对称性综述
- Zhao, Dehmamy, Walters, Yu (ICLR 2026) “Finding Symmetry in Neural Network Parameter Spaces”:自动识别参数空间对称性的方法
十、Python 实现:Neural Collapse 验证
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
def compute_class_means(features, labels, num_classes):
"""计算每个类的特征均值"""
class_means = torch.zeros(num_classes, features.size(1))
for c in range(num_classes):
mask = (labels == c)
if mask.sum() > 0:
class_means[c] = features[mask].mean(dim=0)
return class_means
def measure_neural_collapse(features, labels, weights, num_classes):
"""
测量Neural Collapse的四个核心指标
返回NC1, NC2, NC3, NC4的量化值
"""
# 类均值
class_means = compute_class_means(features, labels, num_classes)
global_mean = class_means.mean(dim=0)
centered_means = class_means - global_mean
# NC1: 可变性坍缩(同类样本特征 → 类均值)
nc1_error = 0.0
for c in range(num_classes):
mask = (labels == c)
if mask.sum() > 0:
class_var = features[mask] - class_means[c]
nc1_error += (class_var ** 2).sum() / mask.sum()
nc1_error /= num_classes
# NC2: Simplex ETF(类均值构成等角紧框架)
# 计算两两夹角的方差
norms = centered_means.norm(dim=1, keepdim=True)
normalized_means = centered_means / (norms + 1e-8)
cos_sim = normalized_means @ normalized_means.T
# 期望 cos_sim = -1/(C-1)(对角为1)
expected_cos = torch.zeros_like(cos_sim)
expected_cos.fill_(-1.0 / (num_classes - 1))
expected_cos.fill_diagonal_(1.0)
nc2_error = (cos_sim - expected_cos).abs().mean()
norm_uniformity = 1.0 - norms.std() / (norms.mean() + 1e-8)
# NC3: Self-duality(分类器权重与类均值对齐)
if weights is not None:
# weights: [num_classes, feature_dim]
w_norms = weights.norm(dim=1, keepdim=True)
normalized_w = weights / (w_norms + 1e-8)
# 与类均值的余弦相似度
alignment = (normalized_w * normalized_means).sum(dim=1)
nc3_score = alignment.mean().item() # 越接近1越好
else:
nc3_score = 0.0
# NC4: NCC 决策一致性
# 测试时用 NCC (Nearest Class Center) 与原分类器决策的一致率
ncc_pred = features @ normalized_means.T # [B, C]
ncc_labels = ncc_pred.argmax(dim=1)
nc4_consistency = (ncc_labels.cpu() == labels.cpu()).float().mean().item()
return {
'NC1_variability_collapse': nc1_error.item(),
'NC2_simplex_ETF_error': nc2_error.item(),
'NC2_norm_uniformity': norm_uniformity.item(),
'NC3_self_duality': nc3_score,
'NC4_NCC_consistency': nc4_consistency,
}
class SimpleClassifier(nn.Module):
"""用于验证Neural Collapse的简单分类器"""
def __init__(self, in_dim=512, hidden_dim=512, num_classes=10):
super().__init__()
self.features = nn.Sequential(
nn.Linear(in_dim, hidden_dim),
nn.ReLU(),
nn.Linear(hidden_dim, hidden_dim),
nn.ReLU(),
nn.Linear(hidden_dim, hidden_dim), # 倒数第二层特征
)
self.classifier = nn.Linear(hidden_dim, num_classes, bias=False)
def forward(self, x, return_features=False):
features = self.features(x)
logits = self.classifier(features)
if return_features:
return logits, features
return logits
def train_until_zero_error(model, train_loader, optimizer, device='cuda', epochs=100):
"""训练到训练误差为0,模拟Terminal Phase of Training"""
model.train()
for epoch in range(epochs):
total_loss = 0
correct = 0
total = 0
for x, y in train_loader:
x, y = x.to(device), y.to(device)
optimizer.zero_grad()
logits = model(x)
loss = F.cross_entropy(logits, y)
loss.backward()
optimizer.step()
total_loss += loss.item() * x.size(0)
correct += (logits.argmax(dim=1) == y).sum().item()
total += x.size(0)
train_acc = correct / total
if epoch % 10 == 0:
print(f"Epoch {epoch}: Loss = {total_loss/total:.4f}, Acc = {train_acc:.4f}")
if train_acc >= 0.9999:
print(f"达到~100%训练准确率,epoch={epoch},进入TPT阶段")
# 继续训练多个epoch模拟TPT
for _ in range(50):
for x, y in train_loader:
x, y = x.to(device), y.to(device)
optimizer.zero_grad()
logits = model(x)
loss = F.cross_entropy(logits, y)
loss.backward()
optimizer.step()
return True
return False
def visualize_nc_evolution(model, train_loader, num_classes=10, device='cuda'):
"""可视化NC随训练epoch的演化"""
model.eval()
all_features = []
all_labels = []
with torch.no_grad():
for x, y in train_loader:
x = x.to(device)
_, features = model(x, return_features=True)
all_features.append(features.cpu())
all_labels.append(y)
features = torch.cat(all_features)
labels = torch.cat(all_labels)
weights = model.classifier.weight.data.cpu()
nc_metrics = measure_neural_collapse(features, labels, weights, num_classes)
return nc_metrics
# 示例:训练并测量Neural Collapse
if __name__ == "__main__":
from torchvision import datasets, transforms
# 加载数据
transform = transforms.Compose([
transforms.ToTensor(),
transforms.Normalize((0.1307,), (0.3081,)),
transforms.Lambda(lambda x: x.view(-1))
])
train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=256, shuffle=True)
# 创建模型
device = 'cuda' if torch.cuda.is_available() else 'cpu'
model = SimpleClassifier(in_dim=784, hidden_dim=512, num_classes=10).to(device)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9, weight_decay=1e-4)
# 训练到TPT
reached_zero = train_until_zero_error(model, train_loader, optimizer, device)
print(f"\n到达TPT: {reached_zero}")
# 测量NC指标
nc_metrics = visualize_nc_evolution(model, train_loader, num_classes=10, device=device)
print("\n=== Neural Collapse 指标 ===")
for metric, value in nc_metrics.items():
print(f" {metric}: {value:.6f}")
# 预期:训练到TPT后
# NC1 variability_collapse → 接近0
# NC2 simplex_ETF_error → 接近0
# NC3 self_duality → 接近1
# NC4 NCC_consistency → 接近1十一、实践应用
11.1 模型架构选择
| 任务 | 推荐架构 | 理由 |
|---|---|---|
| 短序列 NLP(<2K tokens) | Transformer | 因果掩码 + attention 足够 |
| 长序列(>10K) | Mamba / RWKV / xLSTM | 线性复杂度,长程记忆 |
| 图像 | CNN / ViT | 平移等变 / 大规模数据 + 位置编码 |
| 分子/蛋白质 | E(3)-GNN / AlphaFold | 物理对称性硬编码 |
| 图 | GNN (MPNN, GAT, GraphSAGE) | 置换等变 |
| 时序预测 | S4 / Mamba | 连续化优势 |
| 多模态 | Transformer + 跨模态 attention | 通用灵活 |
11.2 训练技巧
- 训练到 0 误差:进入 TPT 利用 NC1-NC4 提升泛化和鲁棒性
- ETF classifier head:在分类任务上使用 simplex ETF 作为初始化(借鉴 NC),可加速收敛
- 正则化:选择与归纳偏置匹配的正则(如 weight decay → L2 norm;PAC-Bayes 提供更紧的界)
- 硬等变 vs. 软学习:物理/化学任务硬等变;通用任务软偏好
11.3 研究方向
- AI for Science:等变网络 + Neural ODE + 多尺度建模
- Foundation Models:Mamba/RWKV/xLSTM 作为 Transformer 的替代或补充
- 几何数据:GDL 是流形/图/点云上深度学习的标准框架
- 理论理解:NHL 函数空间、Neural Collapse、信息瓶颈、参数空间对称性
十二、未解问题与未来方向
- 特征学习的理论刻画:NTK 无法建模,NHL 是开端但仍局限于 mean-field 极限;有限宽度下的特征学习理论仍开放
- Mamba/RWKV/xLSTM 的逼近论:为什么输入选择性/线性衰减能让 SSM 在语言任务上匹敌 Transformer?理论上不清楚
- Neural Collapse 的反向问题:给定对称性数据分布,NC 是否是唯一吸引子?
- 几何深度学习 vs. Transformer:Bronstein 团队在尝试将 Transformer 解释为 GDL 的特例(消息传递 + 全连接图),但 Transformer 的归纳偏置是否真等价于某种 G-CNN?
- 信息瓶颈与泛化的精确关系:Westphal 2025 的广义 IB 是否能解释所有 DNN 现象?
- 互信息最大化的现代替代:Barlow Twins / VICReg 的 redundancy reduction 视角与 IB 的精确数学关系是什么?