概述

现代深度学习理论的核心问题归结为:为什么某些架构在特定任务上有效? 围绕四个相互关联的视角展开:

  1. 架构的归纳偏置(CNN/Transformer/GNN/Mamba/RWKV/xLSTM 的对称性结构)
  2. 训练末态几何(Neural Collapse、ETF、信息瓶颈、互信息最大化)
  3. 函数空间视角(Neural Hilbert Ladder、RKHS 链、通用逼近定理的”宽度无限 / 深度有限”对偶)
  4. 对称性原理(E(3)/SO(3) 等变性、Neural ODE、参数空间对称性)

主要结论:软归纳偏置 (soft inductive bias) + 灵活的假设空间 + 特征学习是统一理解良性过拟合、双下降、Neural Collapse 等现象的关键(Wilson, ICML 2025)。


一、几何深度学习:Erlangen 纲领

1.1 Bronstein et al. 2021:几何深度学习的统一框架

核心论文:Bronstein, M. M., Bruna, J., Cohen, T., Veličković, P. “Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges.” arXiv:2104.13478, 2021.

核心论点(“Erlangen Program of ML”)

  • 19世纪 Felix Klein 用对称群统一几何学;这里用对称性统一深度学习架构
  • 五种”几何”分别对应五种主流架构:
域(Domain)对称群架构
Grids(网格)平移群CNN
Groups(齐次空间)任意群 GGroup-equivariant CNN
Graphs(图)置换群 SₙGNN / Message Passing
Geodesics(测地线/流形)微分同胚Chart-based networks
Gauges(规范)局部规范变换Principal bundle networks

关键定理:在齐次空间 上的场 (field) 分解定理——任何 G-CNN 的特征图都等价于一个群表示矩阵下的张量积分解,这给出了 group equivariant convolution 的完备构造方案。

实践影响:是 E(3)-equivariant GNN(如 NequIP、Allegro)实现 AlphaFold 2 精度的理论基础。

1.2 Kondor 2025:等变网络的物理化学原理

核心论文:Kondor, R. “The principles behind equivariant neural networks for physics and chemistry.” PNAS 122(41) e2415656122, 2025.

核心论点:物理学/化学中的对称性必须硬编码到网络结构中,理由:

  1. 科学数据稀缺、昂贵,不能像 LLM 那样靠规模弥补
  2. 对称性是数学精确的(如 SO(3) 旋转、粒子交换反对称性),不是”近似”的
  3. 不嵌入对称性的模型会违反物理守恒律(角动量守恒、能量守恒)

关键构造

  • 不可约表示(irreps)分解:将特征分解到 SO(3) 的不可约表示空间
  • Clebsch-Gordan 乘法作为等变非线性(这是真正”自然”的等变非线性,而非 ReLU)
  • 适用于 SO(3)、O(3,1) Lorentz 群、置换群

应用:分子动力学(Allegro、NequIP)、宇宙学模拟、AlphaFold 2 中 Evoformer 的三角乘法更新(隐式利用 SE(3) 信息)。


二、Neural Collapse:训练末态几何理论

2.1 Papyan, Han, Donoho 2020:神经坍缩的核心现象

核心论文:Papyan, V., Han, X. Y., Donoho, D. L. “Prevalence of Neural Collapse during the terminal phase of deep learning training.” PNAS 117(40): 24652-24663, 2020.

背景:“Terminal Phase of Training” (TPT,训练末态)——训练误差首次归零后继续训练到 loss → 0 的阶段。

四个核心现象(NC1-NC4)

  1. NC1 (Variability collapse):同一类样本的最后一层特征塌缩到类均值
  2. NC2 (Simplex ETF):类均值(去均值后)等长、彼此夹角相等的等角紧框架 (Equiangular Tight Frame),即 全部相等
  3. NC3 (Self-duality):分类器权重(归一化后)与类均值对齐(
  4. NC4 (NCC 决策):测试时分类等价于”选最近的类均值”

关键定理(Theorem 1, PNAS):在 Unconstrained Features Model (UFM) 下,NC 的全局最优是上述 simplex ETF 配置——理论上证明 NC 不是巧合,而是损失函数的诱导偏置。

实证:在 VGG-19 / MobileNet / WideResNet-28 × CIFAR-10/100 / MNIST / ImageNet 上观察到 NC 在 TPT 出现,所有架构 × 所有数据集组合下,误差 <

2.2 Súkeník, Mondelli, Lampert 2023:Deep UFM 下的多层 NC

核心论文:Súkeník, P., Mondelli, M., Lampert, C. “Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained Features Model.” NeurIPS 2023.

关键贡献:证明 deep UFM 下多层 NC 是 provably optimal

2.3 Hui, Belkin, Nakkiran 2022:NC 的局限

核心论文:Hui, L., Belkin, M., Nakkiran, P. “Limitations of Neural Collapse for Understanding Generalization in Deep Learning.” arXiv:2202.08384, 2022.

关键发现:NC 在某些非典型情形(如标签噪声、自监督)下会失效,NC 并非泛化的充分条件。

应用:NC 提供了”早停 vs. 训练到 0”的理论依据;也启发了 NC 引导的分类器设计(如 ETF classifier head, Prototypical Networks)。


三、信息瓶颈理论

3.1 Tishby & Zaslavsky 2015:经典信息瓶颈

核心论文:Tishby, N. & Zaslavsky, N. “Deep Learning and the Information Bottleneck Principle.” arXiv:1503.02406, 2015.

核心:信息瓶颈 (IB) 目标:

经典论断:DNN 训练分两阶段——

  1. 拟合 (fitting) 阶段 ↑,
  2. 压缩 (compression) 阶段 ↓(对输入中与 Y 无关的信息丢弃)

3.2 Saxe et al. 2018:IB 理论的修正

核心论文:Saxe, A. et al. “On the Information Bottleneck Theory of Deep Learning.” ICLR 2018.

关键发现:用 MNIST/Fashion-MNIST 实验证明”压缩相”只在非线性 + 有限批训练 + 特定激活下出现,对 ReLU 等并不普遍。IB 理论需要修正。

3.3 Westphal, Hailes, Musolesi 2025:广义 IB

核心论文:Westphal, Hailes, Musolesi “A Generalized Information Bottleneck Theory of Deep Learning.” arXiv:2509.26327, 2025.

关键贡献:提出广义 IB 框架,能更准确预测 DNN 中的表示压缩。

地位:IB 至今仍是分析 DNN 表示压缩、信息瓶颈、遗忘等现象的标准信息论工具,但单一 IB 不能完全解释深度学习的成功


四、互信息最大化的局限

4.1 Deep InfoMax (Hjelm et al. 2019)

核心论文:Hjelm, R. D. et al. “Learning deep representations by mutual information estimation and maximization.” ICLR 2019 (arXiv:1808.06670).

核心思想:通过最大化输入与全局特征/局部特征之间的互信息学习表示:

估计方法:用 Jensen-Shannon 散度的 neural estimator(MI-Net / MINE 思路)来估计

实验结果:在 CIFAR-10 / ImageNet 上的无监督表示上,线性评估准确率比当时 SOTA 高 ~5%。

4.2 后续发展

  • CPC (Contrastive Predictive Coding, Oord et al., 2018):互信息在时间维度上的最大化
  • SimCLR / MoCo / BYOL:对比学习可视为隐式的互信息最大化(虽然这有争议)
  • Barlow Twins / VICReg:用 redundancy reduction 替代互信息

4.3 理论局限

核心论文:Tschannen, M. et al. “On Mutual Information Maximization for Representation Learning.” ICML 2020.

关键发现:证明MI 下界与下游分类性能的相关性很弱,互信息最大化不是好的表征学习目标。

结论:现代对比学习(SimCLR/MoCo)可视为间接 MI 最大化,但更准确的视角是 redundancy reduction(Barlow Twins / VICReg)。


五、神经 Hilbert Ladder:函数空间理论

5.1 Chen 2024:Neural Hilbert Ladder (NHL)

核心论文:Chen, Z. “Neural Hilbert Ladders: Multi-Layer Neural Networks in Function Space.” JMLR 25 (2024) 1-65 (arXiv:2307.02824).

核心思想:将 层神经网络视为 层 RKHS 的嵌套(“ladder”):

  • 第 1 层 RKHS 由宽度无限的浅网络定义(Barron space)
  • 层 RKHS 由第 层的”诱导核”递归定义
  • 最终的”函数空间”是这 个 RKHS 的无限并集

5.2 NHL 的五个关键性质

  1. Width-unlimited:包含任意宽度隐藏层的 层网络能表示的函数
  2. 逼近保证:逼近误差由 NHL complexity 控制
  3. 泛化保证:通过 Rademacher complexity 给出
  4. 深度分离:存在 ReLU 激活下
  5. 特征学习:在 mean-field 极限下,GD 训练等价于 上的非马尔可夫随机动力学(这是 NTK 无法建模的

地位:第一个同时满足 (1)-(5) 的函数空间刻画,统一了”逼近论”和”泛化论”两个视角,是 Barron 空间理论向深网络的自然推广。

5.3 关键定理汇总表

理论适用架构关键思想
Universal Approximation (Cybenko 1989)任意宽度浅网络密度性
Barron Space (Barron 1993, Bach 2017)宽度无限浅网络频谱衰减范数
NTK (Jacot 2018)无限宽网络线性化冻结核 RKHS
Neural Hilbert Ladder (Chen 2024)任意深度递归 RKHS 链,特征学习
神经正切核归纳偏置 (Bietti & Mairal 2019)浅 CNNNTK 与真网络的差距分析
Hypothesis Spaces (Wang, Xu, Yan 2024)DNN 全空间双变量 DNN 视角

NHL 的独特地位:是首个同时涵盖 (i) 逼近、(ii) 泛化、(iii) 深度分离、(iv) 特征学习 的函数空间理论。


六、深度与宽度的对偶:Kidger & Lyons 2020

6.1 通用逼近的对偶命题

核心论文:Kidger, P. & Lyons, T. “Universal Approximation with Deep Narrow Networks.” COLT 2020, PMLR 125:1-22 (arXiv:1905.08539).

核心定理:任何有界深度但宽度受限的 ReLU 网络,在宽度 时即具备通用逼近性 (universal approximation)。具体:

  • 对任意紧集 上的连续函数 ,对任意

    只要 足够大(与 的光滑度模数有关,依赖 Barron-type 常数)。

意义:经典通用逼近定理是”任意宽度 + 深度 1”;这里证明对偶命题:“任意深度 + 宽度 “也成立。深度不需要”任意”也能通用逼近——这为深窄网络(ResNet-style)提供了逼近论基础。

6.2 后续发展

  • Lu et al. (NeurIPS 2017) “The Expressive Power of Neural Networks: A View from the Width”:宽度 是 ReLU 网络通用的最小宽度
  • Hernández & Zuazua (2024) “Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks”:给出构造性证明与有限样本记忆

七、Mamba 与现代序列架构

7.1 Mamba (Gu & Dao 2024):选择性状态空间

核心论文:Gu, A. & Dao, T. “Mamba: Linear-Time Sequence Modeling with Selective State Spaces.” COLM 2024 Oral (arXiv:2312.00752).

核心创新:选择性状态空间模型 (selective SSM):

  • 成为输入的函数(selective mechanism
  • 解决了 LSSL/S4 在离散、信息密集数据(如语言)上的弱归纳偏置
  • 用硬件感知的并行扫描 (parallel scan),不需要 materializing expanded state

7.2 序列架构归纳偏置对比

架构归纳偏置时间复杂度长度外推
Transformer置换不变 + 因果掩码 + 位置编码有限(KV cache)
RNN/LSTM顺序马尔可夫 + 长程记忆门控任意
S4/SSM线性时不变 + HiPPO 长程记忆强(连续化)
Mamba输入依赖选择性 + 线性扫描>1M tokens
RWKV线性注意力 + 时序衰减
xLSTM扩展 LSTM(矩阵记忆 + 指数门控)

7.3 Mamba 的关键实验

  • Mamba-3B 超过同尺寸 Transformer,匹配 2× 尺寸 Transformer
  • selective copy 任务上外推至 1M+ tokens(Transformer 失败)
  • DNA/音频模态上 FID 减半
  • Park et al. (ICML 2024):“Can Mamba Learn How To Learn?”——Mamba 在 in-context learning 上弱于 Transformer

理论后续:Huang et al. (arXiv:2506.11891, 2025) 分析了 Mamba 的 selectivity 对逼近能力、记忆能力、关联回忆能力 的影响。


八、软归纳偏置 vs 硬归纳偏置的统一视角

8.1 Wilson 2025:软归纳偏置的统一原理

核心论文:Wilson, A. G. “Deep Learning is Not So Mysterious or Different.” ICML 2025, PMLR 267:82326-82346 (arXiv:2503.02113).

核心论点:深度学习的”异常”现象(良性过拟合、双下降、过参数化成功)不神秘——可用 PAC-Bayes 和可数假设空间界统一解释。

统一原理:Soft Inductive Biases(软归纳偏置)

与其约束假设空间避免过拟合,不如拥抱灵活假设空间,对简单解施加软偏好

关键论断

  • 良性过拟合 = 假设空间的丰富性 + 隐式正则化偏好简单解
  • 双下降 = 可数假设空间界的标准现象(早被 Opper, Haussler, Lugosi 等人证明)
  • 深度学习的”特殊性”在于:
    1. 表示学习 (representation learning)
    2. 模式连通性 (mode connectivity,损失景观中存在连通等价解的低损耗路径)
    3. 相对普遍性(多任务可共用一个大型架构)

与硬归纳偏置(GDL)的关系:本文并非否定硬偏置,而是论证软偏置 + 灵活假设空间才是现代基础模型成功的核心。

8.2 Perin & Deny 2025:网络从数据学习对称性

核心论文:Perin, A. & Deny, S. “On the Ability of Deep Networks to Learn Symmetries from Data – A Neural Kernel Theory.” JMLR 26 (2025) 1-70.

核心问题:网络能否从数据中自动学习对称性(而不是 hard-code)?

理论框架:用 Neural Kernel(基于 NTK 的扩展)分析梯度流诱导的等变性涌现。

关键定理

  • 在适当的”对称性数据分布”下,过参数化网络的 NTK 的主导 eigenfunctions 是等变函数
  • 等变性作为全局最优解自发涌现,无需显式约束
  • 有限宽度/有限数据下可能不涌现——给出涌现所需样本复杂度的界

实践意义:为”何时用硬等变 vs. 让网络自己学”提供理论判据。

8.3 Bencomo et al. 2025:架构与初始权重的偏置

核心论文:Bencomo, Gupta, Marinescu, McCoy, Griffiths “Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias.” arXiv:2502.20237, 2025.

实证发现:用 meta-learning 找初始权重,可显著消除架构差异——说明架构偏置不是唯一来源。

含义:归纳偏置既来自架构(hard bias),也来自初始化训练算法的软偏好。

8.4 架构归纳偏置总结表

架构数据域内置对称性偏置强度
MLP无(仅输入维数)
CNN网格 平移等变 + 局部性 + 尺度分层
Transformer集合 置换不变 + 因果掩码(decoder)中(依赖位置编码)
GNN / MPNN置换等变 + 局部消息传递
E(3)-GNN 点云平移 + 旋转 + 反射极强
S4 / SSM序列线性时不变 + HiPPO 长程记忆
Mamba序列输入选择性 + 线性扫描中-强
RWKV序列线性注意力 + 时序衰减
xLSTM序列扩展 LSTM 门控 + 矩阵记忆

九、对称性与守恒律

9.1 核心数学对象

  • 在集合 上的作用
  • 不变性(输出对群作用不变)
  • 等变性(输出按群表示变换)
  • Noether 定理:连续对称性 守恒律

9.2 等变网络的关键构造

  1. 不可约表示分解 (irreps):特征分解到 的不可约表示
  2. Clebsch-Gordan 乘法:等变非线性(Kondor 2025)
  3. Steerable features:在齐次空间 上的局部特征

9.3 关键应用领域

  • 物理/化学:NequIP、Allegro、AlphaFold 2
  • 蛋白质设计:FrameDiff、Genie 2
  • 分子动力学:MACE、GNoME

9.4 Neural ODE 的对称性

  • Equivariant Manifold Neural ODEs (Andersdotter et al. JMLR 26, 2025):在 Lie 群作用于光滑流形 上的等变 NODE
  • Steerable Neural ODEs on Homogeneous Spaces (2025):在 上的 steerable ODE
  • Symmetry-regularized Neural ODEs (Hao, UCLA, 2023):用正则化诱导等变性

9.5 参数空间对称性

  • Brea, Gerstner, Şimşek et al. (2021):证明参数空间的置换对称导致”对称诱导的鞍点”——L 层的 minimal width 乘积决定鞍点维度
  • Zhao, Walters, Yu (2025) “Symmetry in Neural Network Parameter Spaces”:系统的参数空间对称性综述
  • Zhao, Dehmamy, Walters, Yu (ICLR 2026) “Finding Symmetry in Neural Network Parameter Spaces”:自动识别参数空间对称性的方法

十、Python 实现:Neural Collapse 验证

import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
 
 
def compute_class_means(features, labels, num_classes):
    """计算每个类的特征均值"""
    class_means = torch.zeros(num_classes, features.size(1))
    for c in range(num_classes):
        mask = (labels == c)
        if mask.sum() > 0:
            class_means[c] = features[mask].mean(dim=0)
    return class_means
 
 
def measure_neural_collapse(features, labels, weights, num_classes):
    """
    测量Neural Collapse的四个核心指标
    返回NC1, NC2, NC3, NC4的量化值
    """
    # 类均值
    class_means = compute_class_means(features, labels, num_classes)
    global_mean = class_means.mean(dim=0)
    centered_means = class_means - global_mean
 
    # NC1: 可变性坍缩(同类样本特征 → 类均值)
    nc1_error = 0.0
    for c in range(num_classes):
        mask = (labels == c)
        if mask.sum() > 0:
            class_var = features[mask] - class_means[c]
            nc1_error += (class_var ** 2).sum() / mask.sum()
    nc1_error /= num_classes
 
    # NC2: Simplex ETF(类均值构成等角紧框架)
    # 计算两两夹角的方差
    norms = centered_means.norm(dim=1, keepdim=True)
    normalized_means = centered_means / (norms + 1e-8)
    cos_sim = normalized_means @ normalized_means.T
    # 期望 cos_sim = -1/(C-1)(对角为1)
    expected_cos = torch.zeros_like(cos_sim)
    expected_cos.fill_(-1.0 / (num_classes - 1))
    expected_cos.fill_diagonal_(1.0)
    nc2_error = (cos_sim - expected_cos).abs().mean()
    norm_uniformity = 1.0 - norms.std() / (norms.mean() + 1e-8)
 
    # NC3: Self-duality(分类器权重与类均值对齐)
    if weights is not None:
        # weights: [num_classes, feature_dim]
        w_norms = weights.norm(dim=1, keepdim=True)
        normalized_w = weights / (w_norms + 1e-8)
        # 与类均值的余弦相似度
        alignment = (normalized_w * normalized_means).sum(dim=1)
        nc3_score = alignment.mean().item()  # 越接近1越好
    else:
        nc3_score = 0.0
 
    # NC4: NCC 决策一致性
    # 测试时用 NCC (Nearest Class Center) 与原分类器决策的一致率
    ncc_pred = features @ normalized_means.T  # [B, C]
    ncc_labels = ncc_pred.argmax(dim=1)
    nc4_consistency = (ncc_labels.cpu() == labels.cpu()).float().mean().item()
 
    return {
        'NC1_variability_collapse': nc1_error.item(),
        'NC2_simplex_ETF_error': nc2_error.item(),
        'NC2_norm_uniformity': norm_uniformity.item(),
        'NC3_self_duality': nc3_score,
        'NC4_NCC_consistency': nc4_consistency,
    }
 
 
class SimpleClassifier(nn.Module):
    """用于验证Neural Collapse的简单分类器"""
    def __init__(self, in_dim=512, hidden_dim=512, num_classes=10):
        super().__init__()
        self.features = nn.Sequential(
            nn.Linear(in_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, hidden_dim),  # 倒数第二层特征
        )
        self.classifier = nn.Linear(hidden_dim, num_classes, bias=False)
 
    def forward(self, x, return_features=False):
        features = self.features(x)
        logits = self.classifier(features)
        if return_features:
            return logits, features
        return logits
 
 
def train_until_zero_error(model, train_loader, optimizer, device='cuda', epochs=100):
    """训练到训练误差为0,模拟Terminal Phase of Training"""
    model.train()
    for epoch in range(epochs):
        total_loss = 0
        correct = 0
        total = 0
        for x, y in train_loader:
            x, y = x.to(device), y.to(device)
            optimizer.zero_grad()
            logits = model(x)
            loss = F.cross_entropy(logits, y)
            loss.backward()
            optimizer.step()
            total_loss += loss.item() * x.size(0)
            correct += (logits.argmax(dim=1) == y).sum().item()
            total += x.size(0)
        train_acc = correct / total
        if epoch % 10 == 0:
            print(f"Epoch {epoch}: Loss = {total_loss/total:.4f}, Acc = {train_acc:.4f}")
        if train_acc >= 0.9999:
            print(f"达到~100%训练准确率,epoch={epoch},进入TPT阶段")
            # 继续训练多个epoch模拟TPT
            for _ in range(50):
                for x, y in train_loader:
                    x, y = x.to(device), y.to(device)
                    optimizer.zero_grad()
                    logits = model(x)
                    loss = F.cross_entropy(logits, y)
                    loss.backward()
                    optimizer.step()
            return True
    return False
 
 
def visualize_nc_evolution(model, train_loader, num_classes=10, device='cuda'):
    """可视化NC随训练epoch的演化"""
    model.eval()
    all_features = []
    all_labels = []
    with torch.no_grad():
        for x, y in train_loader:
            x = x.to(device)
            _, features = model(x, return_features=True)
            all_features.append(features.cpu())
            all_labels.append(y)
    features = torch.cat(all_features)
    labels = torch.cat(all_labels)
    weights = model.classifier.weight.data.cpu()
 
    nc_metrics = measure_neural_collapse(features, labels, weights, num_classes)
    return nc_metrics
 
 
# 示例:训练并测量Neural Collapse
if __name__ == "__main__":
    from torchvision import datasets, transforms
 
    # 加载数据
    transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize((0.1307,), (0.3081,)),
        transforms.Lambda(lambda x: x.view(-1))
    ])
    train_dataset = datasets.MNIST('./data', train=True, download=True, transform=transform)
    train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=256, shuffle=True)
 
    # 创建模型
    device = 'cuda' if torch.cuda.is_available() else 'cpu'
    model = SimpleClassifier(in_dim=784, hidden_dim=512, num_classes=10).to(device)
    optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9, weight_decay=1e-4)
 
    # 训练到TPT
    reached_zero = train_until_zero_error(model, train_loader, optimizer, device)
    print(f"\n到达TPT: {reached_zero}")
 
    # 测量NC指标
    nc_metrics = visualize_nc_evolution(model, train_loader, num_classes=10, device=device)
    print("\n=== Neural Collapse 指标 ===")
    for metric, value in nc_metrics.items():
        print(f"  {metric}: {value:.6f}")
 
    # 预期:训练到TPT后
    # NC1 variability_collapse → 接近0
    # NC2 simplex_ETF_error → 接近0
    # NC3 self_duality → 接近1
    # NC4 NCC_consistency → 接近1

十一、实践应用

11.1 模型架构选择

任务推荐架构理由
短序列 NLP(<2K tokens)Transformer因果掩码 + attention 足够
长序列(>10K)Mamba / RWKV / xLSTM线性复杂度,长程记忆
图像CNN / ViT平移等变 / 大规模数据 + 位置编码
分子/蛋白质E(3)-GNN / AlphaFold物理对称性硬编码
GNN (MPNN, GAT, GraphSAGE)置换等变
时序预测S4 / Mamba连续化优势
多模态Transformer + 跨模态 attention通用灵活

11.2 训练技巧

  • 训练到 0 误差:进入 TPT 利用 NC1-NC4 提升泛化和鲁棒性
  • ETF classifier head:在分类任务上使用 simplex ETF 作为初始化(借鉴 NC),可加速收敛
  • 正则化:选择与归纳偏置匹配的正则(如 weight decay → L2 norm;PAC-Bayes 提供更紧的界)
  • 硬等变 vs. 软学习:物理/化学任务硬等变;通用任务软偏好

11.3 研究方向

  • AI for Science:等变网络 + Neural ODE + 多尺度建模
  • Foundation Models:Mamba/RWKV/xLSTM 作为 Transformer 的替代或补充
  • 几何数据:GDL 是流形/图/点云上深度学习的标准框架
  • 理论理解:NHL 函数空间、Neural Collapse、信息瓶颈、参数空间对称性

十二、未解问题与未来方向

  1. 特征学习的理论刻画:NTK 无法建模,NHL 是开端但仍局限于 mean-field 极限;有限宽度下的特征学习理论仍开放
  2. Mamba/RWKV/xLSTM 的逼近论:为什么输入选择性/线性衰减能让 SSM 在语言任务上匹敌 Transformer?理论上不清楚
  3. Neural Collapse 的反向问题:给定对称性数据分布,NC 是否是唯一吸引子?
  4. 几何深度学习 vs. Transformer:Bronstein 团队在尝试将 Transformer 解释为 GDL 的特例(消息传递 + 全连接图),但 Transformer 的归纳偏置是否真等价于某种 G-CNN?
  5. 信息瓶颈与泛化的精确关系:Westphal 2025 的广义 IB 是否能解释所有 DNN 现象?
  6. 互信息最大化的现代替代:Barlow Twins / VICReg 的 redundancy reduction 视角与 IB 的精确数学关系是什么?

十三、与现有wiki内容的连接


参考论文