残差网络 2025-2026 新视角

引言

自 He et al. (2015) 提出 ResNet 以来，残差连接已成为深度学习的核心构件。然而，残差连接为什么有效这一问题，2024-2026 年间得到了更深入的理论分析：

Chizat (2025)：深 ResNet 本身就是 mean-field 网络（“隐式宽”）
Marcotte et al. (2025)：残差结构导致训练动力学的守恒律
Püttschneider et al. (2025)：ResNet 训练 = 离散最优控制
Boix-Adsera (2025)：ResNet 架构内建低秩归纳偏置
Sander et al. (2022)：ResNet 通常不是 Neural ODE 的良好离散化

本文系统梳理这些新视角，建立从经典残差学习到现代理论的完整知识链。¹

一、经典残差学习（简述）

1.1 残差块

标准残差块：

x_{l + 1} = x_{l} + f_{l} (x_{l}, θ_{l})

其中 $f_{l}$ 是残差分支（通常是 Conv-BN-ReLU-Conv-BN）。

1.2 残差连接的三大优势

改善梯度流：梯度可以”跳过”残差分支
支持极深网络：可训练 1000+ 层
损失景观更平滑：相比无残差网络

1.3 现代变体

预激活 (Pre-activation)： $f_{l} (BN (ReLU (x_{l})))$
瓶颈设计 (Bottleneck)：用 1×1 卷积降维-升维
分组卷积 (ResNeXt)：分组减少参数量
密集连接 (DenseNet)：每层连接到所有后续层
Squeeze-Excitation (SE-Net)：通道注意力

二、动力系统视角

2.1 ResNet = 离散 Euler 积分

关键观察（Chen et al. NeurIPS 2018）：

将 ResNet 视为常微分方程（ODE）的欧拉离散化：

x_{l + 1} - x_{l} = f_{l} (x_{l}, θ_{l})

当步长 $h = 1$ 时，等价于：

\frac{d x ( t )}{d t} = f (x (t), t, θ (t))

结论：ResNet 是 Neural ODE 的离散近似。

2.2 Neural ODE 的连续深度

Chen et al. (2018) 用 ODE solver 实现连续深度网络：

x (T) = x (0) + \int_{0}^{T} f (x (t), t, θ) d t

优势：

内存高效（用伴随方法 adjoint）
自适应深度
连续时间规范化流

2.3 形式化误差界

Sayed, Meyer & Ghazel (2025) 给出 ResNet 与 Neural ODE 的形式化误差界：²

定理：单步 Euler 离散化的 $L_{\infty}$ 误差为
$∥ x_{L} - x (t_{L}) ∥_{\infty} \leq \frac{h}{2} (e^{L h} - 1) max_{t} ∥ f (t, x (t)) ∥$

洞察：离散化误差随深度线性累积，因此”深 ResNet 等价于 Neural ODE”这一直觉只在有限深度下成立。

2.4 ResNet 不是好离散化

Sander, Ablin, Peyré (NeurIPS 2022) 提出关键反驳：³

ResNet 通常不是 Neural ODE 的良好离散化；只有在小步长（残差分支权重 → 0）下两者才收敛。

这意味着残差分支需要谨慎缩放（如 $f_{l}$ 前的 $α$ 因子）。

2.5 实现：Neural ODE 风格 ResNet

import torch
import torch.nn as nn
 
class ODEBlock(nn.Module):
    """Neural ODE 风格的 ResNet 块（用 Euler 积分）"""
    def __init__(self, dim, hidden_dim):
        super().__init__()
        self.f = nn.Sequential(
            nn.Linear(dim, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, dim)
        )
    
    def forward(self, x, n_steps=1):
        # Euler 积分（步长 h=1）
        for _ in range(n_steps):
            x = x + self.f(x)
        return x
 
class NeuralODEFunc(nn.Module):
    """Neural ODE：自适应步长"""
    def __init__(self, dim, hidden_dim):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(dim, hidden_dim),
            nn.Tanh(),
            nn.Linear(hidden_dim, dim)
        )
    
    def forward(self, t, x):
        return self.net(x)
 
# 用 torchdiffeq 库
# from torchdiffeq import odeint
# traj = odeint(NeuralODEFunc(...), x0, t_span)

三、隐式宽网络：深度承担宽度角色

3.1 Chizat 的关键定理

Chizat (2025, EPFL) 证明了一个反直觉的定理：⁴

定理（Hidden Width）：当深度 $L \to \infty$ 时，固定宽度 $D$ 的 ResNet 训练动力学收敛到一个 “Neural Mean ODE”，与宽度 $D$ 无关。即深度承担了 mean-field 极限中”宽度”的角色。

关键公式：对任意 $x_{0}$ ，

t \in [0, T] sup ∥ x_{t}^{L, D} - x_{t}^{\infty} ∥ = O (L^{- 1/2})

洞察：

颠覆”宽才好”的固有认知
深 ResNet = 隐式宽网络
这解释了为什么 ResNet-152（深度主导）有时优于宽 ResNet

3.2 Phase Diagram

Chizat 给出了 ResNet 的训练相图：

Lazy regime： $α \to 0$ （小残差分支），权重几乎不变
Rich regime： $α \to \infty$ （大残差分支），特征学习
临界 regime： $α \sim 1$ ，最丰富的训练动力学

3.3 与 Mean-Field 的联系

Mean-field 视角下，神经网络 $x \mapsto \frac{1}{N} \sum_{i} σ (w_{i} \cdot x) v_{i}$ 在 $N \to \infty$ 极限下变成 Wasserstein 梯度流。

ResNet = Mean-field in depth：每层都是一次 “粒子群” 演化。

四、谱条件与残差网络

4.1 谱半径约束

关键观察：残差块 $f_{l}$ 的权重 $W_{l}$ 的谱半径 $ρ (W_{l})$ 决定信号传播：

$ρ (W_{l}) < 1$ ：信号衰减
$ρ (W_{l}) > 1$ ：信号爆炸
$ρ (W_{l}) = 1$ ：信号稳定

$μ$ P 下的谱条件（Preprint 2026）：

ρ (W_{k}) < 1 - O (1/ depth)

这是保证前向信号不爆炸的必要条件。

4.2 残差缩放 = 隐式正则化

Yu et al. (2024) 证明：⁵

定理：在残差分支上引入缩放因子 $α$ （ $x_{k + 1} = x_{k} + α R_{k} (x_{k})$ ）等价于一种隐式架构正则化，偏好低复杂度的”浅路径”。

直觉：

$α$ 小 → 残差贡献小 → 网络接近恒等映射
$α$ 大 → 残差贡献大 → 网络复杂，但可能过拟合
最优 $α$ 平衡表达力与复杂度

应用：解释了 NF-Net（无归一化）成功的原因。

4.3 ResiDual Transformer Alignment

Basile et al. (2024) 在 Transformer 中引入谱分解残差，改进少样本迁移：⁶

用残差 + 谱对齐约束，组合不同 Transformer 模型的表示。

五、守恒律与训练动力学

5.1 Marcotte 的守恒律

Marcotte, Gribonval, Peyré (ICML 2025 Oral) 首次为深层 ResNet 与 Transformer 推导出守恒律（沿训练的标量不变量）：⁷

定理：残差结构改变哪些量被守恒。具体地，残差连接使训练从”transformative”（特征快速重构）走向部分”conservative”（某些信号分量被锁定）。

意义：

揭示了预训练 ResNet 难以微调到新分布的根本原因
部分信号被守恒 = 微调无法改变
解释了为什么 LoRA 等低秩方法有效（只更新部分子空间）

5.2 隐式架构正则化与梯度范数

Yu et al. (2024) 的隐式正则化对应于：

训练时梯度范数受约束
偏好低频信号（ $∥ x_{l} - x_{l - 1} ∥_{2}$ 小）

5.3 Transformative vs Conservative

类型	特征	示例
Transformative	特征快速重构	无残差的深度 MLP
Conservative	部分信号锁定	ResNet, Transformer
混合	部分 transformative	Pre-norm Transformer

5.4 实践启示

微调预训练 ResNet/Transformer：仅更新”未守恒”的子空间
LoRA：精确地选择低秩子空间更新
微调策略：不要过激（破坏守恒律）

六、归纳偏置：低秩瓶颈的数学解释

6.1 Boix-Adsera 的最小范数分析

Boix-Adsera (Wharton/MIT 2025) 计算深度线性 ResNet 的最小范数权重解：⁸

定理：深度线性 ResNet 的最小 Frobenius 范数解倾向于 $rank (W) \leq r$ 形式，其中 $r$ 由瓶颈结构决定。

直觉：

最小化 $\sum_{k} ∥ W_{k} ∥_{F}^{2}$ （权重衰减的连续版本）
满足 $x_{L} = W_{L} \circ W_{L - 1} \circ \dots \circ W_{1} x_{0}$
最优解的归纳偏置介于核范数最小化与秩最小化之间

6.2 解释 ResNet 瓶颈设计

这从理论上解释了为什么 ResNet 的瓶颈设计（ $1 \times 1 \to 3 \times 3 \to 1 \times 1$ ）如此成功：

架构本身就内建了低秩归纳偏置
中间维度 $r$ （如 64）= 隐式秩约束
强迫网络学习压缩表示

6.3 残差连接抑制生成学习

Zhang et al. (2024) 提出了一个反直觉的发现：⁹

残差连接抑制生成式预训练（MAE、扩散模型）中的语义特征学习；引入权重 $α < 1$ 削弱残差贡献可显著提升表示质量。

直觉：

生成式任务需要”重建”特征
残差连接过于”保留”原始信号
适当削弱残差可以强迫特征重构

七、最优控制视角

7.1 Püttschneider 的核心洞察

Püttschneider et al. (ICML 2025 HiLD Workshop) 将 ResNet 训练重构为离散最优控制问题：¹⁰

{u_{k}} min s.t. ℓ (x_{L}, y) x_{k + 1} = x_{k} + f (x_{k}, u_{k})

其中：

状态 $x_{k}$ = 特征
控制 $u_{k}$ = 残差块参数
损失 $ℓ$ = 任务损失

7.2 Pontryagin Maximum Principle

通过 Pontryagin 最大值原理推导一阶最优性条件：

λ_{k} = \nabla_{x_{k}} ℓ + \frac{\partial f}{\partial x _{k}}^{T} λ_{k + 1}

这与反向传播的梯度同构：

λ_{k} = \frac{\partial L}{\partial x _{k}}

7.3 实践应用：MPC 与 ResNet 融合

最优控制视角为 Model Predictive Control (MPC) 与深度学习融合提供理论基础：

残差网络训练 = 离散 OCP 的可微实现
测试时自适应：将 OCP 求解器作为”学习器”
鲁棒训练：约束条件 + OCP

7.4 连续 OCP 与 Neural ODE

Liu, Chen & Theodorou (2025) 进一步将反向传播重写为连续 OCP 的动态规划：¹¹

残差网络是特例
统一框架：最优控制论优化器

八、连续时间视角

8.1 Barboni 的条件 OT 视角

Barboni, Peyré, Vialard (2024) 用条件最优输运（conditional OT）刻画无限深宽 ResNet 的训练动力学：¹²

层间演化 = Wasserstein 流
$\partial_{t} ρ_{t} + \nabla \cdot (ρ_{t} v_{t}^{θ}) = 0$
$v_{t}^{θ}$ 由网络参数化

8.2 Barboni 的关键洞察

训练动力学可以被视为测度空间上的连续流，不同于传统参数空间优化。

应用：

提供了 ResNet 训练动力学的全局视角
解释了为什么不同初始化的网络最终行为相似

8.3 Mean-Field 泛化界

Chen, Liu, Lu, Chrysos, Cevher (2024) 在 mean-field 极限下推导深度 ResNet 的泛化界：

残差缩放因子 $α$ 与泛化误差直接相关
最优 $α$ 取决于数据维数和网络深度

九、ResNet 与现代架构

9.1 ResNet vs Transformer

特性	ResNet	Transformer
核心构件	残差 + 卷积	残差 + 注意力
归纳偏置	局部性、平移等变	全局注意力
训练稳定	较易	需 Pre-norm 等
适用任务	视觉	语言、多模态
深度可扩展	1000+	100+

关键相似：都用残差连接。

9.2 ResNet vs Mamba

特性	ResNet	Mamba
状态空间	离散层	连续 SSM
序列建模	不直接	强项
训练效率	高	高
长程依赖	需堆叠	内建

融合方向：Mamba+ResNet 混合架构（见 hybrid-architecture-systematic-analysis）。

9.3 ConvNeXt 与 ResNet 的统一

ConvNeXt (Liu et al. CVPR 2022) 通过现代化 ResNet 设计达到 Transformer 性能：

7×7 大卷积核
LayerNorm
GELU 激活
倒瓶颈（与 Transformer FFN 同构）

结论：现代 ResNet = ResNet + Transformer 思想。

十、关键洞察总结

10.1 五大理论视角

动力系统：ResNet = 离散 ODE
Mean-Field：深 ResNet = 隐式宽网络
谱理论： $ρ (W_{k}) < 1$ 是稳定条件
守恒律：残差锁定部分信号
最优控制：训练 = 离散 OCP

10.2 三大核心洞察

深度承担宽度角色（Chizat 2025）
残差 = 隐式架构正则化（Yu et al. 2024）
残差 = 离散 OCP（Püttschneider 2025）

10.3 三大实践启示

残差缩放：引入 $α$ 因子改善泛化
微调策略：避免破坏守恒律
架构选择：低秩瓶颈 = 内建归纳偏置

十一、与其他专题的连接

Neural ODE：ResNet = 离散 ODE
训练动力学：守恒律、谱分析
图神经网络：残差消息传递
扩散模型：SDE 离散化 = 残差
Transformer 数学：残差连接 = 谱范数稳定

十二、完整 PyTorch 实现：现代 ResNet

import torch
import torch.nn as nn
import torch.nn.functional as F
 
class ScaledResidualBlock(nn.Module):
    """带缩放因子的残差块（隐式正则化）"""
    def __init__(self, dim, hidden_dim, alpha=0.2):
        super().__init__()
        self.alpha = alpha  # 残差缩放
        self.fc1 = nn.Linear(dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, dim)
        self.norm = nn.LayerNorm(dim)
    
    def forward(self, x):
        # 预激活
        h = self.norm(x)
        h = F.gelu(self.fc1(h))
        h = self.fc2(h)
        # 缩放残差
        return x + self.alpha * h
 
 
class SpectralConditionedResBlock(nn.Module):
    """谱条件化残差块（控制 Jacobian 条件数）"""
    def __init__(self, dim, max_sigma=0.9, min_sigma=0.1):
        super().__init__()
        self.fc1 = nn.Linear(dim, dim)
        self.fc2 = nn.Linear(dim, dim)
        self.max_sigma = max_sigma
        self.min_sigma = min_sigma
    
    def spectral_condition(self, W):
        """将奇异值夹紧到 [min_sigma, max_sigma]"""
        U, S, Vh = torch.linalg.svd(W, full_matrices=False)
        S_clamped = S.clamp(min=self.min_sigma, max=self.max_sigma)
        return U @ torch.diag(S_clamped) @ Vh
    
    def forward(self, x):
        # 谱条件化
        W1 = self.spectral_condition(self.fc1.weight)
        W2 = self.spectral_condition(self.fc2.weight)
        
        h = F.linear(x, W1, self.fc1.bias)
        h = F.gelu(h)
        h = F.linear(h, W2, self.fc2.bias)
        return x + h
 
 
class ModernResNet(nn.Module):
    """现代 ResNet 风格网络"""
    def __init__(self, d_in, d_hidden, n_blocks, alpha=0.2, use_spectral=False):
        super().__init__()
        self.input_proj = nn.Linear(d_in, d_hidden)
        if use_spectral:
            self.blocks = nn.ModuleList([
                SpectralConditionedResBlock(d_hidden) for _ in range(n_blocks)
            ])
        else:
            self.blocks = nn.ModuleList([
                ScaledResidualBlock(d_hidden, d_hidden * 4, alpha) 
                for _ in range(n_blocks)
            ])
        self.norm = nn.LayerNorm(d_hidden)
        self.head = nn.Linear(d_hidden, 10)
    
    def forward(self, x):
        x = self.input_proj(x)
        for block in self.blocks:
            x = block(x)
        x = self.norm(x)
        return self.head(x)
 
 
# === 训练循环 ===
def train_resnet():
    model = ModernResNet(d_in=784, d_hidden=256, n_blocks=20, alpha=0.2)
    optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=0.1)
    
    # 模拟数据
    X = torch.randn(64, 784)
    Y = torch.randint(0, 10, (64,))
    
    for epoch in range(100):
        logits = model(X)
        loss = F.cross_entropy(logits, Y)
        
        # 谱条件检查
        with torch.no_grad():
            for block in model.blocks:
                if isinstance(block, SpectralConditionedResBlock):
                    W = block.fc1.weight
                    _, S, _ = torch.linalg.svd(W, full_matrices=False)
                    assert S.max() <= block.max_sigma + 1e-3
                    assert S.min() >= block.min_sigma - 1e-3
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        if epoch % 10 == 0:
            print(f"Epoch {epoch}, Loss {loss.item():.4f}")

参考资料

其他 2024-2026 重要论文

Dherin, B. & Munn, M. (2025). On Residual Network Depth. Google Research. arXiv:2510.03470
Chen, Y. et al. (2024). Generalization of Scaled Deep ResNets in the Mean-Field Regime. arXiv:2403.09889
Ali Mehmeti-Göpel, C.H.X. & Wand, M. (2025). ResNets Are Deeper Than You Think. arXiv:2506.14386
Bencomo, G. et al. (2025). Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias. arXiv:2502.20237
Daudin, S. & Delarue, F. (2025). Genericity of Polyak-Łojasiewicz Inequalities for Entropic Mean-Field Neural ODEs. arXiv:2507.08486

最后更新：2026-06-22

He, K. et al. (2015). Deep Residual Learning for Image Recognition. CVPR 2016. arXiv:1512.03385 ↩
Sayed, A. et al. (2025). Bridging Neural ODE and ResNet: A Formal Error Bound for Safety Verification. arXiv:2506.03227 ↩
Sander, M.E. et al. (2022). Do Residual Neural Networks discretize Neural ODEs? NeurIPS 2022. arXiv:2205.14612 ↩
Chizat, L. (2025). The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagrams. arXiv:2509.10167 ↩
Yu, Z. et al. (2024). Branch Scaling Manifests as Implicit Architectural Regularization. arXiv:2403.04545 ↩
Basile, L. et al. (2024). ResiDual Transformer Alignment with Spectral Decomposition. arXiv:2411.00246 ↩
Marcotte, S. et al. (2025). Transformative or Conservative? Conservation Laws for ResNets and Transformers. ICML 2025 Oral. arXiv:2506.06194 ↩
Boix-Adsera, E. (2025). On the Inductive Bias of Infinite-Depth ResNets and the Bottleneck Rank. arXiv:2501.19149 ↩
Zhang, X. et al. (2024). Residual Connections Harm Generative Representation Learning. arXiv:2404.10947 ↩
Püttschneider, J. et al. (2025). Towards an Optimal Control Perspective of ResNet Training. ICML 2025 HiLD Workshop. arXiv:2506.21453 ↩
Liu, G.-H. et al. (2025). Optimal Control Theoretic Neural Optimizer. arXiv:2510.14168 ↩
Barboni, R. et al. (2024). Understanding the Training of Infinitely Deep and Wide ResNets with Conditional Optimal Transport. arXiv:2403.12887 ↩

Metaphor

探索

残差网络 2025-2026 新视角

残差网络 2025-2026 新视角

引言

一、经典残差学习（简述）

1.1 残差块

1.2 残差连接的三大优势

1.3 现代变体

二、动力系统视角

2.1 ResNet = 离散 Euler 积分

2.2 Neural ODE 的连续深度

2.3 形式化误差界

2.4 ResNet 不是好离散化

2.5 实现：Neural ODE 风格 ResNet

三、隐式宽网络：深度承担宽度角色

3.1 Chizat 的关键定理

3.2 Phase Diagram

3.3 与 Mean-Field 的联系

四、谱条件与残差网络

4.1 谱半径约束

4.2 残差缩放 = 隐式正则化

4.3 ResiDual Transformer Alignment

五、守恒律与训练动力学

5.1 Marcotte 的守恒律

5.2 隐式架构正则化与梯度范数

5.3 Transformative vs Conservative

5.4 实践启示

六、归纳偏置：低秩瓶颈的数学解释

6.1 Boix-Adsera 的最小范数分析

6.2 解释 ResNet 瓶颈设计

6.3 残差连接抑制生成学习

七、最优控制视角

7.1 Püttschneider 的核心洞察

7.2 Pontryagin Maximum Principle

7.3 实践应用：MPC 与 ResNet 融合

7.4 连续 OCP 与 Neural ODE

八、连续时间视角

8.1 Barboni 的条件 OT 视角

8.2 Barboni 的关键洞察

8.3 Mean-Field 泛化界

九、ResNet 与现代架构

9.1 ResNet vs Transformer

9.2 ResNet vs Mamba

9.3 ConvNeXt 与 ResNet 的统一

十、关键洞察总结

10.1 五大理论视角

10.2 三大核心洞察

10.3 三大实践启示

十一、与其他专题的连接

十二、完整 PyTorch 实现：现代 ResNet

参考资料

其他 2024-2026 重要论文

Footnotes

关系图谱

目录

反向链接