残差网络 2025-2026 新视角

引言

自 He et al. (2015) 提出 ResNet 以来,残差连接已成为深度学习的核心构件。然而,残差连接为什么有效这一问题,2024-2026 年间得到了更深入的理论分析:

  • Chizat (2025):深 ResNet 本身就是 mean-field 网络(“隐式宽”)
  • Marcotte et al. (2025):残差结构导致训练动力学的守恒律
  • Püttschneider et al. (2025):ResNet 训练 = 离散最优控制
  • Boix-Adsera (2025):ResNet 架构内建低秩归纳偏置
  • Sander et al. (2022):ResNet 通常不是 Neural ODE 的良好离散化

本文系统梳理这些新视角,建立从经典残差学习到现代理论的完整知识链。1


一、经典残差学习(简述)

1.1 残差块

标准残差块:

其中 是残差分支(通常是 Conv-BN-ReLU-Conv-BN)。

1.2 残差连接的三大优势

  1. 改善梯度流:梯度可以”跳过”残差分支
  2. 支持极深网络:可训练 1000+ 层
  3. 损失景观更平滑:相比无残差网络

1.3 现代变体

  • 预激活 (Pre-activation)
  • 瓶颈设计 (Bottleneck):用 1×1 卷积降维-升维
  • 分组卷积 (ResNeXt):分组减少参数量
  • 密集连接 (DenseNet):每层连接到所有后续层
  • Squeeze-Excitation (SE-Net):通道注意力

二、动力系统视角

2.1 ResNet = 离散 Euler 积分

关键观察(Chen et al. NeurIPS 2018):

将 ResNet 视为常微分方程(ODE)的欧拉离散化:

当步长 时,等价于:

结论:ResNet 是 Neural ODE 的离散近似。

2.2 Neural ODE 的连续深度

Chen et al. (2018) 用 ODE solver 实现连续深度网络:

优势

  • 内存高效(用伴随方法 adjoint)
  • 自适应深度
  • 连续时间规范化流

2.3 形式化误差界

Sayed, Meyer & Ghazel (2025) 给出 ResNet 与 Neural ODE 的形式化误差界:2

定理:单步 Euler 离散化的 误差为

洞察:离散化误差随深度线性累积,因此”深 ResNet 等价于 Neural ODE”这一直觉只在有限深度下成立。

2.4 ResNet 不是好离散化

Sander, Ablin, Peyré (NeurIPS 2022) 提出关键反驳:3

ResNet 通常不是 Neural ODE 的良好离散化;只有在小步长(残差分支权重 → 0)下两者才收敛。

这意味着残差分支需要谨慎缩放(如 前的 因子)。

2.5 实现:Neural ODE 风格 ResNet

import torch
import torch.nn as nn
 
class ODEBlock(nn.Module):
    """Neural ODE 风格的 ResNet 块(用 Euler 积分)"""
    def __init__(self, dim, hidden_dim):
        super().__init__()
        self.f = nn.Sequential(
            nn.Linear(dim, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, dim)
        )
    
    def forward(self, x, n_steps=1):
        # Euler 积分(步长 h=1)
        for _ in range(n_steps):
            x = x + self.f(x)
        return x
 
class NeuralODEFunc(nn.Module):
    """Neural ODE:自适应步长"""
    def __init__(self, dim, hidden_dim):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(dim, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, dim)
        )
    
    def forward(self, t, x):
        return self.net(x)
 
# 用 torchdiffeq 库
# from torchdiffeq import odeint
# traj = odeint(NeuralODEFunc(...), x0, t_span)

三、隐式宽网络:深度承担宽度角色

3.1 Chizat 的关键定理

Chizat (2025, EPFL) 证明了一个反直觉的定理:4

定理(Hidden Width):当深度 时,固定宽度 的 ResNet 训练动力学收敛到一个 “Neural Mean ODE”,与宽度 无关。即深度承担了 mean-field 极限中”宽度”的角色。

关键公式:对任意

洞察

  • 颠覆”宽才好”的固有认知
  • 深 ResNet = 隐式宽网络
  • 这解释了为什么 ResNet-152(深度主导)有时优于宽 ResNet

3.2 Phase Diagram

Chizat 给出了 ResNet 的训练相图:

  • Lazy regime(小残差分支),权重几乎不变
  • Rich regime(大残差分支),特征学习
  • 临界 regime,最丰富的训练动力学

3.3 与 Mean-Field 的联系

Mean-field 视角下,神经网络 极限下变成 Wasserstein 梯度流。

ResNet = Mean-field in depth:每层都是一次 “粒子群” 演化。


四、谱条件与残差网络

4.1 谱半径约束

关键观察:残差块 的权重 谱半径 决定信号传播:

  • :信号衰减
  • :信号爆炸
  • :信号稳定

P 下的谱条件(Preprint 2026):

这是保证前向信号不爆炸的必要条件。

4.2 残差缩放 = 隐式正则化

Yu et al. (2024) 证明:5

定理:在残差分支上引入缩放因子 )等价于一种隐式架构正则化,偏好低复杂度的”浅路径”。

直觉

  • 小 → 残差贡献小 → 网络接近恒等映射
  • 大 → 残差贡献大 → 网络复杂,但可能过拟合
  • 最优 平衡表达力与复杂度

应用:解释了 NF-Net(无归一化)成功的原因。

4.3 ResiDual Transformer Alignment

Basile et al. (2024) 在 Transformer 中引入谱分解残差,改进少样本迁移:6

用残差 + 谱对齐约束,组合不同 Transformer 模型的表示。


五、守恒律与训练动力学

5.1 Marcotte 的守恒律

Marcotte, Gribonval, Peyré (ICML 2025 Oral) 首次为深层 ResNet 与 Transformer 推导出守恒律(沿训练的标量不变量):7

定理:残差结构改变哪些量被守恒。具体地,残差连接使训练从”transformative”(特征快速重构)走向部分”conservative”(某些信号分量被锁定)。

意义

  • 揭示了预训练 ResNet 难以微调到新分布的根本原因
  • 部分信号被守恒 = 微调无法改变
  • 解释了为什么 LoRA 等低秩方法有效(只更新部分子空间)

5.2 隐式架构正则化与梯度范数

Yu et al. (2024) 的隐式正则化对应于:

  • 训练时梯度范数受约束
  • 偏好低频信号 小)

5.3 Transformative vs Conservative

类型特征示例
Transformative特征快速重构无残差的深度 MLP
Conservative部分信号锁定ResNet, Transformer
混合部分 transformativePre-norm Transformer

5.4 实践启示

  • 微调预训练 ResNet/Transformer:仅更新”未守恒”的子空间
  • LoRA:精确地选择低秩子空间更新
  • 微调策略:不要过激(破坏守恒律)

六、归纳偏置:低秩瓶颈的数学解释

6.1 Boix-Adsera 的最小范数分析

Boix-Adsera (Wharton/MIT 2025) 计算深度线性 ResNet 的最小范数权重解8

定理:深度线性 ResNet 的最小 Frobenius 范数解倾向于 形式,其中 由瓶颈结构决定。

直觉

  • 最小化 (权重衰减的连续版本)
  • 满足
  • 最优解的归纳偏置介于核范数最小化与秩最小化之间

6.2 解释 ResNet 瓶颈设计

这从理论上解释了为什么 ResNet 的瓶颈设计()如此成功:

  • 架构本身就内建了低秩归纳偏置
  • 中间维度 (如 64)= 隐式秩约束
  • 强迫网络学习压缩表示

6.3 残差连接抑制生成学习

Zhang et al. (2024) 提出了一个反直觉的发现:9

残差连接抑制生成式预训练(MAE、扩散模型)中的语义特征学习;引入权重 削弱残差贡献可显著提升表示质量。

直觉

  • 生成式任务需要”重建”特征
  • 残差连接过于”保留”原始信号
  • 适当削弱残差可以强迫特征重构

七、最优控制视角

7.1 Püttschneider 的核心洞察

Püttschneider et al. (ICML 2025 HiLD Workshop) 将 ResNet 训练重构为离散最优控制问题10

其中:

  • 状态 = 特征
  • 控制 = 残差块参数
  • 损失 = 任务损失

7.2 Pontryagin Maximum Principle

通过 Pontryagin 最大值原理推导一阶最优性条件:

这与反向传播的梯度同构

7.3 实践应用:MPC 与 ResNet 融合

最优控制视角为 Model Predictive Control (MPC) 与深度学习融合提供理论基础:

  • 残差网络训练 = 离散 OCP 的可微实现
  • 测试时自适应:将 OCP 求解器作为”学习器”
  • 鲁棒训练:约束条件 + OCP

7.4 连续 OCP 与 Neural ODE

Liu, Chen & Theodorou (2025) 进一步将反向传播重写为连续 OCP 的动态规划:11

  • 残差网络是特例
  • 统一框架:最优控制论优化器

八、连续时间视角

8.1 Barboni 的条件 OT 视角

Barboni, Peyré, Vialard (2024)条件最优输运(conditional OT)刻画无限深宽 ResNet 的训练动力学:12

  • 层间演化 = Wasserstein 流
  • 由网络参数化

8.2 Barboni 的关键洞察

训练动力学可以被视为测度空间上的连续流,不同于传统参数空间优化。

应用

  • 提供了 ResNet 训练动力学的全局视角
  • 解释了为什么不同初始化的网络最终行为相似

8.3 Mean-Field 泛化界

Chen, Liu, Lu, Chrysos, Cevher (2024) 在 mean-field 极限下推导深度 ResNet 的泛化界

  • 残差缩放因子 与泛化误差直接相关
  • 最优 取决于数据维数网络深度

九、ResNet 与现代架构

9.1 ResNet vs Transformer

特性ResNetTransformer
核心构件残差 + 卷积残差 + 注意力
归纳偏置局部性、平移等变全局注意力
训练稳定较易需 Pre-norm 等
适用任务视觉语言、多模态
深度可扩展1000+100+

关键相似:都用残差连接。

9.2 ResNet vs Mamba

特性ResNetMamba
状态空间离散层连续 SSM
序列建模不直接强项
训练效率
长程依赖需堆叠内建

融合方向:Mamba+ResNet 混合架构(见 hybrid-architecture-systematic-analysis)。

9.3 ConvNeXt 与 ResNet 的统一

ConvNeXt (Liu et al. CVPR 2022) 通过现代化 ResNet 设计达到 Transformer 性能:

  • 7×7 大卷积核
  • LayerNorm
  • GELU 激活
  • 倒瓶颈(与 Transformer FFN 同构)

结论:现代 ResNet = ResNet + Transformer 思想。


十、关键洞察总结

10.1 五大理论视角

  1. 动力系统:ResNet = 离散 ODE
  2. Mean-Field:深 ResNet = 隐式宽网络
  3. 谱理论 是稳定条件
  4. 守恒律:残差锁定部分信号
  5. 最优控制:训练 = 离散 OCP

10.2 三大核心洞察

  1. 深度承担宽度角色(Chizat 2025)
  2. 残差 = 隐式架构正则化(Yu et al. 2024)
  3. 残差 = 离散 OCP(Püttschneider 2025)

10.3 三大实践启示

  1. 残差缩放:引入 因子改善泛化
  2. 微调策略:避免破坏守恒律
  3. 架构选择:低秩瓶颈 = 内建归纳偏置

十一、与其他专题的连接

  • Neural ODE:ResNet = 离散 ODE
  • 训练动力学:守恒律、谱分析
  • 图神经网络:残差消息传递
  • 扩散模型:SDE 离散化 = 残差
  • Transformer 数学:残差连接 = 谱范数稳定

十二、完整 PyTorch 实现:现代 ResNet

import torch
import torch.nn as nn
import torch.nn.functional as F
 
class ScaledResidualBlock(nn.Module):
    """带缩放因子的残差块(隐式正则化)"""
    def __init__(self, dim, hidden_dim, alpha=0.2):
        super().__init__()
        self.alpha = alpha  # 残差缩放
        self.fc1 = nn.Linear(dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, dim)
        self.norm = nn.LayerNorm(dim)
    
    def forward(self, x):
        # 预激活
        h = self.norm(x)
        h = F.gelu(self.fc1(h))
        h = self.fc2(h)
        # 缩放残差
        return x + self.alpha * h
 
 
class SpectralConditionedResBlock(nn.Module):
    """谱条件化残差块(控制 Jacobian 条件数)"""
    def __init__(self, dim, max_sigma=0.9, min_sigma=0.1):
        super().__init__()
        self.fc1 = nn.Linear(dim, dim)
        self.fc2 = nn.Linear(dim, dim)
        self.max_sigma = max_sigma
        self.min_sigma = min_sigma
    
    def spectral_condition(self, W):
        """将奇异值夹紧到 [min_sigma, max_sigma]"""
        U, S, Vh = torch.linalg.svd(W, full_matrices=False)
        S_clamped = S.clamp(min=self.min_sigma, max=self.max_sigma)
        return U @ torch.diag(S_clamped) @ Vh
    
    def forward(self, x):
        # 谱条件化
        W1 = self.spectral_condition(self.fc1.weight)
        W2 = self.spectral_condition(self.fc2.weight)
        
        h = F.linear(x, W1, self.fc1.bias)
        h = F.gelu(h)
        h = F.linear(h, W2, self.fc2.bias)
        return x + h
 
 
class ModernResNet(nn.Module):
    """现代 ResNet 风格网络"""
    def __init__(self, d_in, d_hidden, n_blocks, alpha=0.2, use_spectral=False):
        super().__init__()
        self.input_proj = nn.Linear(d_in, d_hidden)
        if use_spectral:
            self.blocks = nn.ModuleList([
                SpectralConditionedResBlock(d_hidden) for _ in range(n_blocks)
            ])
        else:
            self.blocks = nn.ModuleList([
                ScaledResidualBlock(d_hidden, d_hidden * 4, alpha) 
                for _ in range(n_blocks)
            ])
        self.norm = nn.LayerNorm(d_hidden)
        self.head = nn.Linear(d_hidden, 10)
    
    def forward(self, x):
        x = self.input_proj(x)
        for block in self.blocks:
            x = block(x)
        x = self.norm(x)
        return self.head(x)
 
 
# === 训练循环 ===
def train_resnet():
    model = ModernResNet(d_in=784, d_hidden=256, n_blocks=20, alpha=0.2)
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=0.1)
    
    # 模拟数据
    X = torch.randn(64, 784)
    Y = torch.randint(0, 10, (64,))
    
    for epoch in range(100):
        logits = model(X)
        loss = F.cross_entropy(logits, Y)
        
        # 谱条件检查
        with torch.no_grad():
            for block in model.blocks:
                if isinstance(block, SpectralConditionedResBlock):
                    W = block.fc1.weight
                    _, S, _ = torch.linalg.svd(W, full_matrices=False)
                    assert S.max() <= block.max_sigma + 1e-3
                    assert S.min() >= block.min_sigma - 1e-3
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        if epoch % 10 == 0:
            print(f"Epoch {epoch}, Loss {loss.item():.4f}")

参考资料

其他 2024-2026 重要论文

  • Dherin, B. & Munn, M. (2025). On Residual Network Depth. Google Research. arXiv:2510.03470
  • Chen, Y. et al. (2024). Generalization of Scaled Deep ResNets in the Mean-Field Regime. arXiv:2403.09889
  • Ali Mehmeti-Göpel, C.H.X. & Wand, M. (2025). ResNets Are Deeper Than You Think. arXiv:2506.14386
  • Bencomo, G. et al. (2025). Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias. arXiv:2502.20237
  • Daudin, S. & Delarue, F. (2025). Genericity of Polyak-Łojasiewicz Inequalities for Entropic Mean-Field Neural ODEs. arXiv:2507.08486

最后更新:2026-06-22

Footnotes

  1. He, K. et al. (2015). Deep Residual Learning for Image Recognition. CVPR 2016. arXiv:1512.03385

  2. Sayed, A. et al. (2025). Bridging Neural ODE and ResNet: A Formal Error Bound for Safety Verification. arXiv:2506.03227

  3. Sander, M.E. et al. (2022). Do Residual Neural Networks discretize Neural ODEs? NeurIPS 2022. arXiv:2205.14612

  4. Chizat, L. (2025). The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagrams. arXiv:2509.10167

  5. Yu, Z. et al. (2024). Branch Scaling Manifests as Implicit Architectural Regularization. arXiv:2403.04545

  6. Basile, L. et al. (2024). ResiDual Transformer Alignment with Spectral Decomposition. arXiv:2411.00246

  7. Marcotte, S. et al. (2025). Transformative or Conservative? Conservation Laws for ResNets and Transformers. ICML 2025 Oral. arXiv:2506.06194

  8. Boix-Adsera, E. (2025). On the Inductive Bias of Infinite-Depth ResNets and the Bottleneck Rank. arXiv:2501.19149

  9. Zhang, X. et al. (2024). Residual Connections Harm Generative Representation Learning. arXiv:2404.10947

  10. Püttschneider, J. et al. (2025). Towards an Optimal Control Perspective of ResNet Training. ICML 2025 HiLD Workshop. arXiv:2506.21453

  11. Liu, G.-H. et al. (2025). Optimal Control Theoretic Neural Optimizer. arXiv:2510.14168

  12. Barboni, R. et al. (2024). Understanding the Training of Infinitely Deep and Wide ResNets with Conditional Optimal Transport. arXiv:2403.12887