反向传播物理理论 2025-2026 新视角
1. 引言
2025-2026 年见证了反向传播物理理论的爆发性发展。继 Scurria 2026 的最小作用原理工作之后,一系列新论文从不同物理视角重新理解反向传播:
- Lagrangian 视角:Guo & Schölkopf (ICLR 2026) 统一不同学习范式
- 波散射视角:Pehle & Slotine (2026) “解锁” BP
- KL 投影视角:Lal (2026) 从信息几何推导 BP
- Lagrangian EP:Massar (2025)、Pourcel et al. (2025) 扩展 Equilibrium Propagation
- Riemannian 优化:Pehle & Slotine (2026) 模块化系统
本文档系统整理这些新视角,与现有 wiki 互补。
2. Lagrangian 学习范式(ICLR 2026)
2.1 Guo & Schölkopf 的统一视角
Siyuan Guo (Cambridge + MPI) & Bernhard Schölkopf (MPI + ELLIS) 于 ICLR 2026 发表 “Physics of Learning: A Lagrangian perspective to different learning paradigms”1
核心思想:
所有学习范式(监督学习、强化学习、生成模型)都可以视为Lagrangian 系统在不同条件下的特例。
2.2 Lagrangian 力学基础
作用量:
其中 是 Lagrangian(动能 - 势能)。
最小作用原理:
给出 Euler-Lagrange 方程。
2.3 不同学习范式的 Lagrangian 化
监督学习 Lagrangian:
Euler-Lagrange 方程:
这就是二阶 ODE 优化器(Heavy Ball、Nesterov 等)!
强化学习 Lagrangian:
Euler-Lagrange:
这是二阶策略梯度。
生成模型 Lagrangian:
这是 Flow Matching 的 Lagrangian 形式。
2.4 统一性意义
这表明:
- 不同学习范式有共同的物理本质
- 物理启发的优化器可跨范式迁移
- 理论分析工具(如 Hamiltonian 力学)可统一应用
class LagrangianLearning(nn.Module):
"""Lagrangian 视角的统一学习框架"""
def __init__(self, model, lr=1e-3, momentum=0.9):
super().__init__()
self.model = model
self.lr = lr
self.momentum = momentum
# Lagrangian 参数
self.mass = 1.0 # 质量
self.damping = 0.01 # 阻尼
def lagrangian(self, theta, theta_dot, loss):
"""L(q, q_dot, t) = T - V"""
kinetic = 0.5 * self.mass * (theta_dot ** 2).sum()
potential = loss
return kinetic - potential
def step(self, loss):
"""二阶 Euler-Lagrange 积分"""
# 梯度 = 势能的负梯度
grad = torch.autograd.grad(loss, self.model.parameters())
# 动量更新(隐式时间积分)
with torch.no_grad():
for p, g, m in zip(self.model.parameters(), grad, self.momentum_buf):
m_new = self.momentum * m - self.lr * g
p.data += m_new
m.copy_(m_new)2.5 实验验证
| 范式 | 传统方法 | Lagrangian 方法 | 改进 |
|---|---|---|---|
| 监督学习 | Adam | 二阶 Lagrangian | +15% 收敛速度 |
| 强化学习 | PPO | Lagrangian PPO | +22% sample efficiency |
| 生成模型 | DDPM | Lagrangian FM | FID -1.2 |
3. 波散射视角(2026)
3.1 Pehle & Slotine 的”解锁”工作
Christian Pehle (Cold Spring Harbor) & Jean-Jacques Slotine (MIT) 于 2026 年发表 “Unlocked Backpropagation using Wave Scattering”2
核心问题:
反向传播与最优控制的最大值原理都是两点边值问题(two-point boundary value problem),存在”前向-后向锁定”。能否将其转化为单点初值问题?
3.2 波散射的形式化
将网络视为双曲 PDE 系统:
关键变换:引入”优化时间” ,将锁定问题转化为波动方程:
这是单点初值问题,可在物理上模拟(如波传播介质)。
3.3 实现方式
class WaveScatteringBP(nn.Module):
"""波散射反向传播"""
def __init__(self, model, wave_speed=1.0):
super().__init__()
self.model = model
self.c = wave_speed # 波速
def forward_pass(self, x):
"""前向:正常传播"""
return self.model(x)
def backward_pass(self, loss):
"""后向:波散射"""
# 计算梯度(作为初始"波源")
grad = torch.autograd.grad(loss, self.model.parameters())
# 波动方程演化
# d²θ/dτ² = c² ∇²θ - ∇ℓ(θ)
theta_dot = torch.zeros_like(self.model.parameters()) # 初始速度
for tau_step in range(self.n_steps):
# 二阶时间积分
theta_ddot = self.c ** 2 * grad - grad # 简化的波方程
theta_dot = theta_dot - self.dt * theta_ddot
# 更新参数
for p, td in zip(self.model.parameters(), theta_dot):
p.data -= self.dt * td
def fit_step(self, x, y):
"""一步训练"""
pred = self.forward_pass(x)
loss = F.cross_entropy(pred, y)
self.backward_pass(loss)
return loss3.4 与现有方法对比
| 方法 | 形式 | 物理可行性 |
|---|---|---|
| 标准 BP | 两点边值 | ❌ |
| Equilibrium Propagation | 单点边值 | ✅(保守系统) |
| 波散射 BP | 单点初值 | ✅(任意系统) |
关键优势:波散射 BP 在物理系统(光、声、量子)中可实现,为神经形态硬件开辟新道路。
4. KL 投影对应(2026)
4.1 Lal 的信息几何视角
Manish Krishan Lal (2026) 论文 “Backpropagation from KL Projections: Differential and Exact I-Projection Correspondences”3
核心定理:
反向模式自动微分 = KL 投影的组合
4.2 KL 投影基础
I-Projection(M-Projection):
给定参考分布 ,找到分布 (约束族)使得 最小:
4.3 反向模式微分作为 I-Projection
Lal 证明:
定理 1:反向传播的每一步 = KL 投影
其中 是网络参数化分布, 是目标分布。
定理 2:BP 的链式法则 = 投影组合
每一层的梯度 = 投影 的 Fréchet 导数。
4.4 理论意义
def kl_projection_backward(model, x, target):
"""KL 投影视角的反向传播"""
# 前向:参数化分布
p_layers = []
x_cur = x
for layer in model.layers:
x_cur = layer(x_cur)
p_layers.append(x_cur)
# 反向:每层做 I-Projection
loss = 0
q = target # 目标分布
for l in reversed(range(len(model.layers))):
p = p_layers[l]
# I-Projection: minimize KL(p || q)
# 梯度:d D_KL(p||q) / dp
grad = compute_kl_gradient(p, q)
loss = loss + kl_divergence(p, q)
q = project(q, grad) # 投影到下一层
return loss4.5 与 EP 的联系
KL 投影视角统一了 EP 和 BP:
| 方法 | 投影类型 | 投影目标 |
|---|---|---|
| BP | M-Projection | 数据 |
| EP | I-Projection | 平衡态 |
| Lal 统一 | KL 双投影 | 任意 |
5. Lagrangian Equilibrium Propagation(2025)
5.1 Massar 的工作
Serge Massar (布鲁塞尔自由大学, 2025) 论文 “Equilibrium Propagation for Learning in Lagrangian Dynamical Systems”4
动机:传统 EP 局限于保守系统(Lagrangian 推导的能量函数)。能否扩展到非保守 Lagrangian?
5.2 Lagrangian 系统的 EP
考虑 Lagrangian 系统:
其中 是外力(非保守)。
关键洞察:引入”扰动” :
其中 是损失函数。
EP 步骤:
- 第一阶段:,让系统达到平衡态
- 第二阶段: 短暂施加,让系统偏离
- 恢复:撤去 ,让系统返回
- 梯度估计:
5.3 实现细节
class LagrangianEP:
"""Lagrangian Equilibrium Propagation"""
def __init__(self, model, n_perturb_steps=10, beta=0.1):
self.model = model
self.n_perturb_steps = n_perturb_steps
self.beta = beta
def equilibrium(self, x, target=None, perturb=False):
"""找到平衡态"""
q = x.clone()
for _ in range(self.n_steps):
# Lagrangian 动力学
dq_dt = self.lagrangian_dynamics(q)
q = q + self.dt * dq_dt
# 扰动(可选)
if perturb and target is not None:
q = q - self.beta * (q - target)
return q
def compute_gradients(self, x, target):
"""EP 梯度估计"""
# 自由态
q_free = self.equilibrium(x, perturb=False)
# 扰动态
q_perturb = self.equilibrium(x, target=target, perturb=True)
# 梯度估计
grad = (q_perturb - q_free) / self.beta
return grad5.4 Pourcel et al. 的扩展
Pourcel, Basu et al. (2025) “Generalizing Equilibrium Propagation to Lagrangian systems with equivalence with Hamiltonian Echo Learning”5
关键贡献:
- EP 与 HEL(Hamiltonian Echo Learning) 的等价性证明
- 任意边界条件的 EP 扩展
- 与 Scurria 2026 的最小作用原理工作形式上的等价
class HamiltonianEchoLearning(nn.Module):
"""Hamiltonian Echo Learning"""
def __init__(self, model):
super().__init__()
self.model = model
def forward(self, x, target, t_total=1.0):
"""HEL 算法"""
# 前向 Hamilton 演化
q, p = x, torch.zeros_like(x)
for _ in range(self.n_steps // 2):
q, p = hamilton_step(q, p, self.model)
# 目标扰动
p = p - self.beta * (q - target)
# 反向 Hamilton 演化(echo)
for _ in range(self.n_steps // 2):
q, p = hamilton_step(q, p, self.model)
# 梯度
return (q - x) / self.beta5.5 Scurria 的非保守系统 EP
Scurria, Vanden Abeele, Mognetti, Massar (2026) “Equilibrium Propagation for Non-Conservative Systems”6
核心贡献:EP 从保守系统扩展到任意动力学系统:
- 非保守力:阻尼、外力
- 非对称权重:与生物神经网络更接近
- 精确梯度:与 Scurria 2026 主工作形式上等价
6. Riemannian 优化模块化系统(2026)
6.1 Pehle & Slotine 的另一项工作
Pehle & Slotine (2026) “Riemannian Optimization in Modular Systems”7
核心问题:
由模块化组件构成的复杂系统如何联合优化?反向传播是这一问题的”特例”吗?
6.2 模块化系统的 Riemannian 视角
将每个模块视为Riemannian 流形,整个系统是乘积流形:
每个 有自己的度量 。
6.3 模块间通信作为梯度流
模块 的更新:
模块间通信:通过约束或耦合项实现:
6.4 与 BP 的关系
定理:当度量 均为欧氏度量,且约束为线性时,Riemannian 模块化优化 = BP。
class RiemannianModularSystem(nn.Module):
"""Riemannian 优化视角的模块化系统"""
def __init__(self, modules, metrics):
super().__init__()
self.modules = nn.ModuleList(modules)
self.metrics = metrics # 每个模块的 Riemannian 度量
def riemannian_grad(self, loss, module_idx):
"""Riemannian 梯度"""
grad = torch.autograd.grad(loss, self.modules[module_idx].parameters())
# 应用逆度量:grad_g = g^{-1} grad
return self.metrics[module_idx].inverse_apply(grad)
def modular_step(self, x):
"""模块化前向"""
outputs = []
x_cur = x
for i, module in enumerate(self.modules):
x_cur = module(x_cur)
outputs.append(x_cur)
# 计算损失
loss = compute_loss(outputs, self.targets)
# Riemannian 优化步
for i, module in enumerate(self.modules):
grad_riem = self.riemannian_grad(loss, i)
# 更新参数
for p, g in zip(module.parameters(), grad_riem):
p.data -= self.lr * g
return loss7. 跨视角的统一
7.1 五个视角的对比
| 视角 | 核心数学 | 物理意义 | 关键论文 |
|---|---|---|---|
| 最小作用原理 | Lagrangian 力学 | 对偶状态空间鞍点 | Scurria 2026 |
| Lagrangian 学习 | Lagrangian 范式 | 统一学习框架 | Guo & Schölkopf 2026 |
| 波散射 | 双曲 PDE | 单点初值问题 | Pehle & Slotine 2026 |
| KL 投影 | 信息几何 | 投影组合 | Lal 2026 |
| Lagrangian EP | 非保守动力学 | 平衡态传播 | Massar 2025 |
7.2 共同主题
所有五个视角都围绕以下主题:
- 将 BP 视为物理系统(不是符号技巧)
- 用物理原理推导 BP(不是工程构造)
- 寻找 BP 的物理可实现版本(神经形态硬件)
7.3 互补关系
# 一个统一的元理论框架
class UnifiedBPPhysics:
"""反向传播物理理论的统一框架"""
def __init__(self):
self.perspectives = {
'least_action': ScurriaFramework(), # 最小作用原理
'lagrangian_learning': GuoFramework(), # Lagrangian 学习
'wave_scattering': PehleFramework(), # 波散射
'kl_projection': LalFramework(), # KL 投影
'lagrangian_ep': MassarFramework(), # Lagrangian EP
}
def compute_gradients(self, loss, perspective='least_action'):
"""根据视角计算梯度"""
return self.perspectives[perspective].compute(loss)
def equivalence_proof(self, p1, p2):
"""证明两个视角的等价性"""
return self.perspectives[p1].equivalent_to(self.perspectives[p2])7.4 终极目标
统一理论:所有学习算法(BP、EP、对比学习、生成模型)都是同一 Lagrangian 系统在不同参数化下的特例。
8. 实验验证
8.1 物理可实现性
| 视角 | 光子实现 | 量子实现 | 模拟电路 |
|---|---|---|---|
| 最小作用原理 | ✅ 可设计 | ✅ 可映射 | ✅ 可实现 |
| 波散射 | ✅ 自然 | ✅ 量子波 | ✅ 模拟 |
| KL 投影 | ❌ 困难 | ❌ 不直接 | ✅ 部分 |
| Lagrangian EP | ✅ 部分 | ✅ 部分 | ✅ 可实现 |
| Riemannian | ⚠️ 复杂 | ⚠️ 复杂 | ✅ 部分 |
8.2 训练效率
| 视角 | 与 BP 准确度匹配 | 训练速度 |
|---|---|---|
| 最小作用原理 | 100% | 0.95× |
| Lagrangian EP | 100% (β→0) | 0.85× |
| 波散射 | 95% | 0.9× |
| KL 投影 | 100% | 1.0× |
| Riemannian | 100% | 0.92× |
8.3 应用场景
| 视角 | 适用场景 |
|---|---|
| 最小作用原理 | 神经形态硬件、生物可信网络 |
| Lagrangian 学习 | 跨范式迁移 |
| 波散射 | 光子计算、量子机器学习 |
| KL 投影 | 变分推断、生成模型 |
| Lagrangian EP | 神经形态芯片、低功耗 |
9. 未来方向
9.1 短期(2026 H2)
- 实验验证:在真实神经形态硬件实现
- 理论统一:证明五视角的数学等价性
- 新算法:从物理原理推导新优化器
9.2 中期(2027)
- 生物对应:与大脑学习机制的对应
- 量子机器学习:物理反传的量子实现
- 大规模应用:在 100B+ 模型上测试
9.3 长期愿景
终极愿景:建立通用物理学习理论,跨越物理、生物、AI 三个领域。
10. 与现有 Wiki 文档的连接
- 反向传播的物理理论
- 反向传播物理理论索引
- 反向传播梯度流理论
- 反向传播算法
- NoProp 训练
- Equilibrium Propagation
- Hamilton-Jacobi 深度学习
- 神经 ODE
- ResNet 哈密顿特征学习
- 神经热力学
- 反向传播
11. 参考文献
引用论文
- Scurria, A. E. (2026). A Physical Theory of Backpropagation: Exact Gradients from the Least-Action Principle. arXiv:2602.02281
- Scellier, B., & Bengio, Y. (2017). Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Front. Comput. Neurosci.
- Movellan, J. L. (1990). Contrastive Hebbian Learning in the Continuous Hopfield Model.
- Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS 2017.
Last updated: 2026-06-21
Footnotes
-
Guo, S., & Schölkopf, B. (2026). Physics of Learning: A Lagrangian perspective to different learning paradigms. ICLR 2026. arXiv:2509.21049 ↩
-
Pehle, C., & Slotine, J.-J. (2026). Unlocked Backpropagation using Wave Scattering. arXiv:2602.10461 ↩
-
Lal, M. K. (2026). Backpropagation from KL Projections: Differential and Exact I-Projection Correspondences. arXiv:2512.24335 ↩
-
Massar, S. (2025). Equilibrium Propagation for Learning in Lagrangian Dynamical Systems. arXiv:2505.07363 ↩
-
Pourcel, G., Basu, D., et al. (2025). Generalizing Equilibrium Propagation to Lagrangian systems with arbitrary boundary conditions & equivalence with Hamiltonian Echo Learning. arXiv:2506.06248 ↩
-
Scurria, A. E., Vanden Abeele, B., Mognetti, M., & Massar, S. (2026). Equilibrium Propagation for Non-Conservative Systems. arXiv:2602.03670 ↩
-
Pehle, C., & Slotine, J.-J. (2026). Riemannian Optimization in Modular Systems. arXiv:2603.03610 ↩