神经网络表达能力

神经网络的表达能力(Expressivity)指的是网络能够表示的函数集合的大小。一个核心问题是:给定一个神经网络架构,它能近似多复杂的函数?这关系到我们能否用神经网络来解决特定问题。

通用逼近定理

经典UAT

通用逼近定理(Universal Approximation Theorem, UAT)是神经网络理论最重要的基础结果之一。

单隐层定理(Cybenko, 1989)

对于任意连续函数 和任意 ,存在一个单隐层神经网络 ,使得:

其中 是Sigmoid函数。

Hornik定理(1991)

关键洞察:神经网络的表达能力不取决于激活函数的选择,而取决于网络的宽度

以非常数、有界、单调递增的连续函数为激活函数的前馈神经网络,在紧集上可以以任意精度逼近任意连续函数,当且仅当网络有无限宽度。

UAT的局限性

UAT只说明了存在性,没有说明:

  • 需要多少神经元?
  • 如何找到这些神经元?
  • 训练算法能否找到这些解?
┌──────────────────────────────────────────────────────────────┐
│                    UAT的"保证" vs "现实"                     │
├────────────────────────────────────────────────────────────┤
│                                                              │
│  UAT保证:存在某个宽度N,使得网络可以逼近任意函数              │
│                                                              │
│  ❌ 但没有说明N有多大                                        │
│  ❌ 没有说明如何通过梯度下降找到这个网络                      │
│  ✅ 实际情况:网络可能需要指数级宽度                          │
│                                                              │
└──────────────────────────────────────────────────────────────┘

VC维度与复杂度

VC维度的定义

VC维度(Vapnik-Chervonenkis Dimension)是衡量函数类复杂度的经典指标。

定义:一个假设空间 的VC维度是最大的样本数 ,使得存在 个点能被 中的假设打散(shatter),即 能实现这 个点的所有 种标记。

打散示例

点数量 = 3
所有可能的标记 = 2³ = 8种

    ○           ○           ○          ○
    │           │           │          │
    ○     ○     ○     ○     ○    ○    ○    ○
    │     │     │     │     │    │    │    │
    ○     ○     ○     ○     ○    ○    ○    ○

    NNN     YNN     NYN     YYN     NNY     YNY     NNN     YYY

神经网络的VC维度

对于前馈神经网络,VC维度有以下上界:

其中 是参数总数, 是网络层数。

更紧的界(Bartlett, 1998):

其中 是第 层的宽度, 是权重矩阵的Frobenius范数。

VC维与泛化

VC维度直接影响泛化边界。根据VC界:

其中 是样本数量。

深度 vs 宽度

深度的好处

理论上,更深的网络可以用更少的参数表达某些函数:

函数类浅网络复杂度深网络复杂度
奇偶函数
周期函数需要指数多神经元多层叠加

电路复杂度视角

如果将神经元视为电路门,有以下结果:

深层网络可以高效计算某些用浅层电路难以计算的函数。

宽度的重要性

宽度-表达能力关系

Universal Approximation Theorem (宽度版本)1

对于 ReLU 激活函数,存在一个两层(单隐层)网络能够以任意精度逼近 上的任意连续函数。

宽度下界

要逼近某些函数,需要的最小宽度与目标精度有关:

目标函数类型所需最小宽度
常数函数
一维函数
维函数
无界函数无下界

临界宽度

Neural Tangent Kernel (NTK) 理论发现存在一个临界宽度 ,超过这个宽度后网络行为可以用线性模型近似:2

# NTK regime: width >> critical width
# 网络行为类似于线性模型
# 梯度下降等价于核回归(NTK)
 
# Einet regime: width ~ critical width  
# 真正的非线性学习发生

神经正切核(NTK)

理论基础

在无限宽极限下,神经网络可以精确地用神经正切核(Neural Tangent Kernel, NTK)来描述。

定义

对于两个输入 ,NTK定义为:

无限宽网络动力学

无限宽网络的训练轨迹由以下微分方程描述:

实践意义

宽度 regime行为特点
无限宽等价于NTK核回归
有限宽但很大偏离NTK,但接近
窄网络高度非线性,NTK不适用

表达力的度量

路径范数(Path Norm)

路径范数是衡量网络表达能力的一种度量:3

其中 是从输入到输出的所有路径集合。

Spectral Norm

谱范数衡量单层的表达能力:

Lipschitz常数

网络的Lipschitz常数影响其泛化能力:

其中

现代理论进展

过参数化与泛化

近年来的研究发现,在过参数化(over-parameterization) regime 下,神经网络的泛化可以通过新的理论框架解释。

2025年最新进展:架构无关泛化

Bapu等人4证明了一个惊人结果:在强过参数化条件下,神经网络的泛化误差可以与VC维度和网络架构无关

核心定理
对于强过参数化的深度ReLU网络,存在显式构造的零损失最小化器 ,满足:

其中 是Chamfer伪距离,只依赖于训练/测试数据的几何性质。

神经流形几何

2024-2025年的研究表明,可以用代数几何工具分析神经网络的表达能力:

神经流形(Neuromanifold)

定义:参数化映射的像构成一个代数流形

关键结果

与深度的关系与宽度的关系
维度 线性增长线性增长
次数 超指数增长指数增长

这解释了为什么更深的网络具有更强的表达能力(次数更高),同时保持较低的样本复杂度(维度较低)。

实践启示

理论 → 实践

理论发现实践建议
深网络表达力强对于复杂函数,使用足够深的网络
过参数化帮助泛化大模型可能更容易训练
宽度临界值存在但实际中很少触及
Lipschitz影响泛化使用权重归一化、谱归一化

表达能力测试

可以通过以下方式评估网络的表达能力:

def test_expressivity(model, x):
    """
    测试网络对不同频率成分的拟合能力
    """
    # 高频函数
    f_high = torch.sin(50 * x)
    
    # 低频函数  
    f_low = torch.sin(x)
    
    # 训练网络
    optimizer = torch.optim.Adam(model.parameters(), lr=0.01)
    
    for epoch in range(1000):
        optimizer.zero_grad()
        
        # 拟合高频
        out_high = model(x)
        loss_high = F.mse_loss(out_high, f_high)
        loss_high.backward()
        optimizer.step()
    
    # 检查是否能拟合高频
    error = F.mse_loss(model(x), f_high)
    return error.item()
 
# 更深的网络能更好地拟合高频成分

激活函数的选择

虽然UAT表明表达能力不取决于激活函数,但实践中:

激活函数特点使用场景
ReLU稀疏激活,计算高效默认选择
GELU平滑,Transformer标配NLP任务
Swish可学习激活搜索空间
SiLU/Swish-1GELU的近似移动端

表达力与可训练性的权衡

表达能力 ≠ 可训练性

高表达能力不等于网络容易训练:

高表达能力                    优化难度
     ↑                          ↑
     │    ResNet-1000           │
     │    Transformer           │
     │    MoE                   │
     │───────────────           │
     │    ResNet-18            │
     │    小MLP                 │
     │                          ↓
低表达能力                    易优化

诅咒与祝福

  • 宽网络:表达力强,但优化困难(鞍点、局部最小值)
  • 窄网络:表达力有限,但优化相对简单

架构设计的权衡

架构选择表达力可训练性典型应用
很宽的单层理论分析
深而窄中高早期NN
深而宽很高较好ResNet, Transformer
多头/MoE很高LLM

参考

Footnotes

  1. Hornik et al., “Multilayer feedforward networks are universal approximators”, Neural Networks 1989

  2. Jacot et al., “Neural Tangent Kernel: Convergence and Generalization in Neural Networks”, NeurIPS 2018

  3. Neyshabur et al., “Path-Norm: A Regularization Effect in Deep Learning”, ICML 2015

  4. Bapu et al., “Architecture Independent Generalization Bounds for Overparametrized Deep ReLU Networks”, arXiv 2025