残差网络 2025-2026 新视角
引言
自 He et al. (2015) 提出 ResNet 以来,残差连接已成为深度学习的核心构件。然而,残差连接为什么有效这一问题,2024-2026 年间得到了更深入的理论分析:
- Chizat (2025):深 ResNet 本身就是 mean-field 网络(“隐式宽”)
- Marcotte et al. (2025):残差结构导致训练动力学的守恒律
- Püttschneider et al. (2025):ResNet 训练 = 离散最优控制
- Boix-Adsera (2025):ResNet 架构内建低秩归纳偏置
- Sander et al. (2022):ResNet 通常不是 Neural ODE 的良好离散化
本文系统梳理这些新视角,建立从经典残差学习到现代理论的完整知识链。1
一、经典残差学习(简述)
1.1 残差块
标准残差块:
其中 是残差分支(通常是 Conv-BN-ReLU-Conv-BN)。
1.2 残差连接的三大优势
- 改善梯度流:梯度可以”跳过”残差分支
- 支持极深网络:可训练 1000+ 层
- 损失景观更平滑:相比无残差网络
1.3 现代变体
- 预激活 (Pre-activation):
- 瓶颈设计 (Bottleneck):用 1×1 卷积降维-升维
- 分组卷积 (ResNeXt):分组减少参数量
- 密集连接 (DenseNet):每层连接到所有后续层
- Squeeze-Excitation (SE-Net):通道注意力
二、动力系统视角
2.1 ResNet = 离散 Euler 积分
关键观察(Chen et al. NeurIPS 2018):
将 ResNet 视为常微分方程(ODE)的欧拉离散化:
当步长 时,等价于:
结论:ResNet 是 Neural ODE 的离散近似。
2.2 Neural ODE 的连续深度
Chen et al. (2018) 用 ODE solver 实现连续深度网络:
优势:
- 内存高效(用伴随方法 adjoint)
- 自适应深度
- 连续时间规范化流
2.3 形式化误差界
Sayed, Meyer & Ghazel (2025) 给出 ResNet 与 Neural ODE 的形式化误差界:2
定理:单步 Euler 离散化的 误差为
洞察:离散化误差随深度线性累积,因此”深 ResNet 等价于 Neural ODE”这一直觉只在有限深度下成立。
2.4 ResNet 不是好离散化
Sander, Ablin, Peyré (NeurIPS 2022) 提出关键反驳:3
ResNet 通常不是 Neural ODE 的良好离散化;只有在小步长(残差分支权重 → 0)下两者才收敛。
这意味着残差分支需要谨慎缩放(如 前的 因子)。
2.5 实现:Neural ODE 风格 ResNet
import torch
import torch.nn as nn
class ODEBlock(nn.Module):
"""Neural ODE 风格的 ResNet 块(用 Euler 积分)"""
def __init__(self, dim, hidden_dim):
super().__init__()
self.f = nn.Sequential(
nn.Linear(dim, hidden_dim),
nn.Tanh(),
nn.Linear(hidden_dim, dim)
)
def forward(self, x, n_steps=1):
# Euler 积分(步长 h=1)
for _ in range(n_steps):
x = x + self.f(x)
return x
class NeuralODEFunc(nn.Module):
"""Neural ODE:自适应步长"""
def __init__(self, dim, hidden_dim):
super().__init__()
self.net = nn.Sequential(
nn.Linear(dim, hidden_dim),
nn.Tanh(),
nn.Linear(hidden_dim, dim)
)
def forward(self, t, x):
return self.net(x)
# 用 torchdiffeq 库
# from torchdiffeq import odeint
# traj = odeint(NeuralODEFunc(...), x0, t_span)三、隐式宽网络:深度承担宽度角色
3.1 Chizat 的关键定理
Chizat (2025, EPFL) 证明了一个反直觉的定理:4
定理(Hidden Width):当深度 时,固定宽度 的 ResNet 训练动力学收敛到一个 “Neural Mean ODE”,与宽度 无关。即深度承担了 mean-field 极限中”宽度”的角色。
关键公式:对任意 ,
洞察:
- 颠覆”宽才好”的固有认知
- 深 ResNet = 隐式宽网络
- 这解释了为什么 ResNet-152(深度主导)有时优于宽 ResNet
3.2 Phase Diagram
Chizat 给出了 ResNet 的训练相图:
- Lazy regime:(小残差分支),权重几乎不变
- Rich regime:(大残差分支),特征学习
- 临界 regime:,最丰富的训练动力学
3.3 与 Mean-Field 的联系
Mean-field 视角下,神经网络 在 极限下变成 Wasserstein 梯度流。
ResNet = Mean-field in depth:每层都是一次 “粒子群” 演化。
四、谱条件与残差网络
4.1 谱半径约束
关键观察:残差块 的权重 的谱半径 决定信号传播:
- :信号衰减
- :信号爆炸
- :信号稳定
P 下的谱条件(Preprint 2026):
这是保证前向信号不爆炸的必要条件。
4.2 残差缩放 = 隐式正则化
Yu et al. (2024) 证明:5
定理:在残差分支上引入缩放因子 ()等价于一种隐式架构正则化,偏好低复杂度的”浅路径”。
直觉:
- 小 → 残差贡献小 → 网络接近恒等映射
- 大 → 残差贡献大 → 网络复杂,但可能过拟合
- 最优 平衡表达力与复杂度
应用:解释了 NF-Net(无归一化)成功的原因。
4.3 ResiDual Transformer Alignment
Basile et al. (2024) 在 Transformer 中引入谱分解残差,改进少样本迁移:6
用残差 + 谱对齐约束,组合不同 Transformer 模型的表示。
五、守恒律与训练动力学
5.1 Marcotte 的守恒律
Marcotte, Gribonval, Peyré (ICML 2025 Oral) 首次为深层 ResNet 与 Transformer 推导出守恒律(沿训练的标量不变量):7
定理:残差结构改变哪些量被守恒。具体地,残差连接使训练从”transformative”(特征快速重构)走向部分”conservative”(某些信号分量被锁定)。
意义:
- 揭示了预训练 ResNet 难以微调到新分布的根本原因
- 部分信号被守恒 = 微调无法改变
- 解释了为什么 LoRA 等低秩方法有效(只更新部分子空间)
5.2 隐式架构正则化与梯度范数
Yu et al. (2024) 的隐式正则化对应于:
- 训练时梯度范数受约束
- 偏好低频信号( 小)
5.3 Transformative vs Conservative
| 类型 | 特征 | 示例 |
|---|---|---|
| Transformative | 特征快速重构 | 无残差的深度 MLP |
| Conservative | 部分信号锁定 | ResNet, Transformer |
| 混合 | 部分 transformative | Pre-norm Transformer |
5.4 实践启示
- 微调预训练 ResNet/Transformer:仅更新”未守恒”的子空间
- LoRA:精确地选择低秩子空间更新
- 微调策略:不要过激(破坏守恒律)
六、归纳偏置:低秩瓶颈的数学解释
6.1 Boix-Adsera 的最小范数分析
Boix-Adsera (Wharton/MIT 2025) 计算深度线性 ResNet 的最小范数权重解:8
定理:深度线性 ResNet 的最小 Frobenius 范数解倾向于 形式,其中 由瓶颈结构决定。
直觉:
- 最小化 (权重衰减的连续版本)
- 满足
- 最优解的归纳偏置介于核范数最小化与秩最小化之间
6.2 解释 ResNet 瓶颈设计
这从理论上解释了为什么 ResNet 的瓶颈设计()如此成功:
- 架构本身就内建了低秩归纳偏置
- 中间维度 (如 64)= 隐式秩约束
- 强迫网络学习压缩表示
6.3 残差连接抑制生成学习
Zhang et al. (2024) 提出了一个反直觉的发现:9
残差连接抑制生成式预训练(MAE、扩散模型)中的语义特征学习;引入权重 削弱残差贡献可显著提升表示质量。
直觉:
- 生成式任务需要”重建”特征
- 残差连接过于”保留”原始信号
- 适当削弱残差可以强迫特征重构
七、最优控制视角
7.1 Püttschneider 的核心洞察
Püttschneider et al. (ICML 2025 HiLD Workshop) 将 ResNet 训练重构为离散最优控制问题:10
其中:
- 状态 = 特征
- 控制 = 残差块参数
- 损失 = 任务损失
7.2 Pontryagin Maximum Principle
通过 Pontryagin 最大值原理推导一阶最优性条件:
这与反向传播的梯度同构:
7.3 实践应用:MPC 与 ResNet 融合
最优控制视角为 Model Predictive Control (MPC) 与深度学习融合提供理论基础:
- 残差网络训练 = 离散 OCP 的可微实现
- 测试时自适应:将 OCP 求解器作为”学习器”
- 鲁棒训练:约束条件 + OCP
7.4 连续 OCP 与 Neural ODE
Liu, Chen & Theodorou (2025) 进一步将反向传播重写为连续 OCP 的动态规划:11
- 残差网络是特例
- 统一框架:最优控制论优化器
八、连续时间视角
8.1 Barboni 的条件 OT 视角
Barboni, Peyré, Vialard (2024) 用条件最优输运(conditional OT)刻画无限深宽 ResNet 的训练动力学:12
- 层间演化 = Wasserstein 流
- 由网络参数化
8.2 Barboni 的关键洞察
训练动力学可以被视为测度空间上的连续流,不同于传统参数空间优化。
应用:
- 提供了 ResNet 训练动力学的全局视角
- 解释了为什么不同初始化的网络最终行为相似
8.3 Mean-Field 泛化界
Chen, Liu, Lu, Chrysos, Cevher (2024) 在 mean-field 极限下推导深度 ResNet 的泛化界:
- 残差缩放因子 与泛化误差直接相关
- 最优 取决于数据维数和网络深度
九、ResNet 与现代架构
9.1 ResNet vs Transformer
| 特性 | ResNet | Transformer |
|---|---|---|
| 核心构件 | 残差 + 卷积 | 残差 + 注意力 |
| 归纳偏置 | 局部性、平移等变 | 全局注意力 |
| 训练稳定 | 较易 | 需 Pre-norm 等 |
| 适用任务 | 视觉 | 语言、多模态 |
| 深度可扩展 | 1000+ | 100+ |
关键相似:都用残差连接。
9.2 ResNet vs Mamba
| 特性 | ResNet | Mamba |
|---|---|---|
| 状态空间 | 离散层 | 连续 SSM |
| 序列建模 | 不直接 | 强项 |
| 训练效率 | 高 | 高 |
| 长程依赖 | 需堆叠 | 内建 |
融合方向:Mamba+ResNet 混合架构(见 hybrid-architecture-systematic-analysis)。
9.3 ConvNeXt 与 ResNet 的统一
ConvNeXt (Liu et al. CVPR 2022) 通过现代化 ResNet 设计达到 Transformer 性能:
- 7×7 大卷积核
- LayerNorm
- GELU 激活
- 倒瓶颈(与 Transformer FFN 同构)
结论:现代 ResNet = ResNet + Transformer 思想。
十、关键洞察总结
10.1 五大理论视角
- 动力系统:ResNet = 离散 ODE
- Mean-Field:深 ResNet = 隐式宽网络
- 谱理论: 是稳定条件
- 守恒律:残差锁定部分信号
- 最优控制:训练 = 离散 OCP
10.2 三大核心洞察
- 深度承担宽度角色(Chizat 2025)
- 残差 = 隐式架构正则化(Yu et al. 2024)
- 残差 = 离散 OCP(Püttschneider 2025)
10.3 三大实践启示
- 残差缩放:引入 因子改善泛化
- 微调策略:避免破坏守恒律
- 架构选择:低秩瓶颈 = 内建归纳偏置
十一、与其他专题的连接
- Neural ODE:ResNet = 离散 ODE
- 训练动力学:守恒律、谱分析
- 图神经网络:残差消息传递
- 扩散模型:SDE 离散化 = 残差
- Transformer 数学:残差连接 = 谱范数稳定
十二、完整 PyTorch 实现:现代 ResNet
import torch
import torch.nn as nn
import torch.nn.functional as F
class ScaledResidualBlock(nn.Module):
"""带缩放因子的残差块(隐式正则化)"""
def __init__(self, dim, hidden_dim, alpha=0.2):
super().__init__()
self.alpha = alpha # 残差缩放
self.fc1 = nn.Linear(dim, hidden_dim)
self.fc2 = nn.Linear(hidden_dim, dim)
self.norm = nn.LayerNorm(dim)
def forward(self, x):
# 预激活
h = self.norm(x)
h = F.gelu(self.fc1(h))
h = self.fc2(h)
# 缩放残差
return x + self.alpha * h
class SpectralConditionedResBlock(nn.Module):
"""谱条件化残差块(控制 Jacobian 条件数)"""
def __init__(self, dim, max_sigma=0.9, min_sigma=0.1):
super().__init__()
self.fc1 = nn.Linear(dim, dim)
self.fc2 = nn.Linear(dim, dim)
self.max_sigma = max_sigma
self.min_sigma = min_sigma
def spectral_condition(self, W):
"""将奇异值夹紧到 [min_sigma, max_sigma]"""
U, S, Vh = torch.linalg.svd(W, full_matrices=False)
S_clamped = S.clamp(min=self.min_sigma, max=self.max_sigma)
return U @ torch.diag(S_clamped) @ Vh
def forward(self, x):
# 谱条件化
W1 = self.spectral_condition(self.fc1.weight)
W2 = self.spectral_condition(self.fc2.weight)
h = F.linear(x, W1, self.fc1.bias)
h = F.gelu(h)
h = F.linear(h, W2, self.fc2.bias)
return x + h
class ModernResNet(nn.Module):
"""现代 ResNet 风格网络"""
def __init__(self, d_in, d_hidden, n_blocks, alpha=0.2, use_spectral=False):
super().__init__()
self.input_proj = nn.Linear(d_in, d_hidden)
if use_spectral:
self.blocks = nn.ModuleList([
SpectralConditionedResBlock(d_hidden) for _ in range(n_blocks)
])
else:
self.blocks = nn.ModuleList([
ScaledResidualBlock(d_hidden, d_hidden * 4, alpha)
for _ in range(n_blocks)
])
self.norm = nn.LayerNorm(d_hidden)
self.head = nn.Linear(d_hidden, 10)
def forward(self, x):
x = self.input_proj(x)
for block in self.blocks:
x = block(x)
x = self.norm(x)
return self.head(x)
# === 训练循环 ===
def train_resnet():
model = ModernResNet(d_in=784, d_hidden=256, n_blocks=20, alpha=0.2)
optimizer = torch.optim.AdamW(model.parameters(), lr=1e-3, weight_decay=0.1)
# 模拟数据
X = torch.randn(64, 784)
Y = torch.randint(0, 10, (64,))
for epoch in range(100):
logits = model(X)
loss = F.cross_entropy(logits, Y)
# 谱条件检查
with torch.no_grad():
for block in model.blocks:
if isinstance(block, SpectralConditionedResBlock):
W = block.fc1.weight
_, S, _ = torch.linalg.svd(W, full_matrices=False)
assert S.max() <= block.max_sigma + 1e-3
assert S.min() >= block.min_sigma - 1e-3
optimizer.zero_grad()
loss.backward()
optimizer.step()
if epoch % 10 == 0:
print(f"Epoch {epoch}, Loss {loss.item():.4f}")参考资料
其他 2024-2026 重要论文
- Dherin, B. & Munn, M. (2025). On Residual Network Depth. Google Research. arXiv:2510.03470
- Chen, Y. et al. (2024). Generalization of Scaled Deep ResNets in the Mean-Field Regime. arXiv:2403.09889
- Ali Mehmeti-Göpel, C.H.X. & Wand, M. (2025). ResNets Are Deeper Than You Think. arXiv:2506.14386
- Bencomo, G. et al. (2025). Teasing Apart Architecture and Initial Weights as Sources of Inductive Bias. arXiv:2502.20237
- Daudin, S. & Delarue, F. (2025). Genericity of Polyak-Łojasiewicz Inequalities for Entropic Mean-Field Neural ODEs. arXiv:2507.08486
最后更新:2026-06-22
Footnotes
-
He, K. et al. (2015). Deep Residual Learning for Image Recognition. CVPR 2016. arXiv:1512.03385 ↩
-
Sayed, A. et al. (2025). Bridging Neural ODE and ResNet: A Formal Error Bound for Safety Verification. arXiv:2506.03227 ↩
-
Sander, M.E. et al. (2022). Do Residual Neural Networks discretize Neural ODEs? NeurIPS 2022. arXiv:2205.14612 ↩
-
Chizat, L. (2025). The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagrams. arXiv:2509.10167 ↩
-
Yu, Z. et al. (2024). Branch Scaling Manifests as Implicit Architectural Regularization. arXiv:2403.04545 ↩
-
Basile, L. et al. (2024). ResiDual Transformer Alignment with Spectral Decomposition. arXiv:2411.00246 ↩
-
Marcotte, S. et al. (2025). Transformative or Conservative? Conservation Laws for ResNets and Transformers. ICML 2025 Oral. arXiv:2506.06194 ↩
-
Boix-Adsera, E. (2025). On the Inductive Bias of Infinite-Depth ResNets and the Bottleneck Rank. arXiv:2501.19149 ↩
-
Zhang, X. et al. (2024). Residual Connections Harm Generative Representation Learning. arXiv:2404.10947 ↩
-
Püttschneider, J. et al. (2025). Towards an Optimal Control Perspective of ResNet Training. ICML 2025 HiLD Workshop. arXiv:2506.21453 ↩
-
Liu, G.-H. et al. (2025). Optimal Control Theoretic Neural Optimizer. arXiv:2510.14168 ↩
-
Barboni, R. et al. (2024). Understanding the Training of Infinitely Deep and Wide ResNets with Conditional Optimal Transport. arXiv:2403.12887 ↩