反向传播物理理论 2025-2026 新视角

1. 引言

2025-2026 年见证了反向传播物理理论的爆发性发展。继 Scurria 2026 的最小作用原理工作之后,一系列新论文从不同物理视角重新理解反向传播:

  1. Lagrangian 视角:Guo & Schölkopf (ICLR 2026) 统一不同学习范式
  2. 波散射视角:Pehle & Slotine (2026) “解锁” BP
  3. KL 投影视角:Lal (2026) 从信息几何推导 BP
  4. Lagrangian EP:Massar (2025)、Pourcel et al. (2025) 扩展 Equilibrium Propagation
  5. Riemannian 优化:Pehle & Slotine (2026) 模块化系统

本文档系统整理这些新视角,与现有 wiki 互补。

2. Lagrangian 学习范式(ICLR 2026)

2.1 Guo & Schölkopf 的统一视角

Siyuan Guo (Cambridge + MPI) & Bernhard Schölkopf (MPI + ELLIS) 于 ICLR 2026 发表 “Physics of Learning: A Lagrangian perspective to different learning paradigms”1

核心思想

所有学习范式(监督学习、强化学习、生成模型)都可以视为Lagrangian 系统在不同条件下的特例。

2.2 Lagrangian 力学基础

作用量

其中 是 Lagrangian(动能 - 势能)。

最小作用原理

给出 Euler-Lagrange 方程。

2.3 不同学习范式的 Lagrangian 化

监督学习 Lagrangian

Euler-Lagrange 方程:

这就是二阶 ODE 优化器(Heavy Ball、Nesterov 等)!

强化学习 Lagrangian

Euler-Lagrange:

这是二阶策略梯度

生成模型 Lagrangian

这是 Flow Matching 的 Lagrangian 形式。

2.4 统一性意义

这表明:

  1. 不同学习范式有共同的物理本质
  2. 物理启发的优化器可跨范式迁移
  3. 理论分析工具(如 Hamiltonian 力学)可统一应用
class LagrangianLearning(nn.Module):
    """Lagrangian 视角的统一学习框架"""
    def __init__(self, model, lr=1e-3, momentum=0.9):
        super().__init__()
        self.model = model
        self.lr = lr
        self.momentum = momentum
        # Lagrangian 参数
        self.mass = 1.0  # 质量
        self.damping = 0.01  # 阻尼
    
    def lagrangian(self, theta, theta_dot, loss):
        """L(q, q_dot, t) = T - V"""
        kinetic = 0.5 * self.mass * (theta_dot ** 2).sum()
        potential = loss
        return kinetic - potential
    
    def step(self, loss):
        """二阶 Euler-Lagrange 积分"""
        # 梯度 = 势能的负梯度
        grad = torch.autograd.grad(loss, self.model.parameters())
        
        # 动量更新(隐式时间积分)
        with torch.no_grad():
            for p, g, m in zip(self.model.parameters(), grad, self.momentum_buf):
                m_new = self.momentum * m - self.lr * g
                p.data += m_new
                m.copy_(m_new)

2.5 实验验证

范式传统方法Lagrangian 方法改进
监督学习Adam二阶 Lagrangian+15% 收敛速度
强化学习PPOLagrangian PPO+22% sample efficiency
生成模型DDPMLagrangian FMFID -1.2

3. 波散射视角(2026)

3.1 Pehle & Slotine 的”解锁”工作

Christian Pehle (Cold Spring Harbor) & Jean-Jacques Slotine (MIT) 于 2026 年发表 “Unlocked Backpropagation using Wave Scattering”2

核心问题

反向传播与最优控制的最大值原理都是两点边值问题(two-point boundary value problem),存在”前向-后向锁定”。能否将其转化为单点初值问题

3.2 波散射的形式化

将网络视为双曲 PDE 系统

关键变换:引入”优化时间” ,将锁定问题转化为波动方程:

这是单点初值问题,可在物理上模拟(如波传播介质)。

3.3 实现方式

class WaveScatteringBP(nn.Module):
    """波散射反向传播"""
    def __init__(self, model, wave_speed=1.0):
        super().__init__()
        self.model = model
        self.c = wave_speed  # 波速
    
    def forward_pass(self, x):
        """前向:正常传播"""
        return self.model(x)
    
    def backward_pass(self, loss):
        """后向:波散射"""
        # 计算梯度(作为初始"波源")
        grad = torch.autograd.grad(loss, self.model.parameters())
        
        # 波动方程演化
        # d²θ/dτ² = c² ∇²θ - ∇ℓ(θ)
        theta_dot = torch.zeros_like(self.model.parameters())  # 初始速度
        for tau_step in range(self.n_steps):
            # 二阶时间积分
            theta_ddot = self.c ** 2 * grad - grad  # 简化的波方程
            theta_dot = theta_dot - self.dt * theta_ddot
            # 更新参数
            for p, td in zip(self.model.parameters(), theta_dot):
                p.data -= self.dt * td
    
    def fit_step(self, x, y):
        """一步训练"""
        pred = self.forward_pass(x)
        loss = F.cross_entropy(pred, y)
        self.backward_pass(loss)
        return loss

3.4 与现有方法对比

方法形式物理可行性
标准 BP两点边值
Equilibrium Propagation单点边值✅(保守系统)
波散射 BP单点初值✅(任意系统)

关键优势:波散射 BP 在物理系统(光、声、量子)中可实现,为神经形态硬件开辟新道路。

4. KL 投影对应(2026)

4.1 Lal 的信息几何视角

Manish Krishan Lal (2026) 论文 “Backpropagation from KL Projections: Differential and Exact I-Projection Correspondences”3

核心定理

反向模式自动微分 = KL 投影的组合

4.2 KL 投影基础

I-Projection(M-Projection)

给定参考分布 ,找到分布 (约束族)使得 最小:

4.3 反向模式微分作为 I-Projection

Lal 证明:

定理 1:反向传播的每一步 = KL 投影

其中 是网络参数化分布, 是目标分布。

定理 2:BP 的链式法则 = 投影组合

每一层的梯度 = 投影 的 Fréchet 导数。

4.4 理论意义

def kl_projection_backward(model, x, target):
    """KL 投影视角的反向传播"""
    # 前向:参数化分布
    p_layers = []
    x_cur = x
    for layer in model.layers:
        x_cur = layer(x_cur)
        p_layers.append(x_cur)
    
    # 反向:每层做 I-Projection
    loss = 0
    q = target  # 目标分布
    for l in reversed(range(len(model.layers))):
        p = p_layers[l]
        # I-Projection: minimize KL(p || q)
        # 梯度:d D_KL(p||q) / dp
        grad = compute_kl_gradient(p, q)
        loss = loss + kl_divergence(p, q)
        q = project(q, grad)  # 投影到下一层
    
    return loss

4.5 与 EP 的联系

KL 投影视角统一了 EP 和 BP

方法投影类型投影目标
BPM-Projection数据
EPI-Projection平衡态
Lal 统一KL 双投影任意

5. Lagrangian Equilibrium Propagation(2025)

5.1 Massar 的工作

Serge Massar (布鲁塞尔自由大学, 2025) 论文 “Equilibrium Propagation for Learning in Lagrangian Dynamical Systems”4

动机:传统 EP 局限于保守系统(Lagrangian 推导的能量函数)。能否扩展到非保守 Lagrangian?

5.2 Lagrangian 系统的 EP

考虑 Lagrangian 系统:

其中 是外力(非保守)。

关键洞察:引入”扰动”

其中 是损失函数。

EP 步骤

  1. 第一阶段,让系统达到平衡态
  2. 第二阶段 短暂施加,让系统偏离
  3. 恢复:撤去 ,让系统返回
  4. 梯度估计

5.3 实现细节

class LagrangianEP:
    """Lagrangian Equilibrium Propagation"""
    def __init__(self, model, n_perturb_steps=10, beta=0.1):
        self.model = model
        self.n_perturb_steps = n_perturb_steps
        self.beta = beta
    
    def equilibrium(self, x, target=None, perturb=False):
        """找到平衡态"""
        q = x.clone()
        for _ in range(self.n_steps):
            # Lagrangian 动力学
            dq_dt = self.lagrangian_dynamics(q)
            q = q + self.dt * dq_dt
            # 扰动(可选)
            if perturb and target is not None:
                q = q - self.beta * (q - target)
        return q
    
    def compute_gradients(self, x, target):
        """EP 梯度估计"""
        # 自由态
        q_free = self.equilibrium(x, perturb=False)
        # 扰动态
        q_perturb = self.equilibrium(x, target=target, perturb=True)
        # 梯度估计
        grad = (q_perturb - q_free) / self.beta
        return grad

5.4 Pourcel et al. 的扩展

Pourcel, Basu et al. (2025) “Generalizing Equilibrium Propagation to Lagrangian systems with equivalence with Hamiltonian Echo Learning”5

关键贡献

  • EP 与 HEL(Hamiltonian Echo Learning) 的等价性证明
  • 任意边界条件的 EP 扩展
  • Scurria 2026 的最小作用原理工作形式上的等价
class HamiltonianEchoLearning(nn.Module):
    """Hamiltonian Echo Learning"""
    def __init__(self, model):
        super().__init__()
        self.model = model
    
    def forward(self, x, target, t_total=1.0):
        """HEL 算法"""
        # 前向 Hamilton 演化
        q, p = x, torch.zeros_like(x)
        for _ in range(self.n_steps // 2):
            q, p = hamilton_step(q, p, self.model)
        
        # 目标扰动
        p = p - self.beta * (q - target)
        
        # 反向 Hamilton 演化(echo)
        for _ in range(self.n_steps // 2):
            q, p = hamilton_step(q, p, self.model)
        
        # 梯度
        return (q - x) / self.beta

5.5 Scurria 的非保守系统 EP

Scurria, Vanden Abeele, Mognetti, Massar (2026) “Equilibrium Propagation for Non-Conservative Systems”6

核心贡献:EP 从保守系统扩展到任意动力学系统

  • 非保守力:阻尼、外力
  • 非对称权重:与生物神经网络更接近
  • 精确梯度:与 Scurria 2026 主工作形式上等价

6. Riemannian 优化模块化系统(2026)

6.1 Pehle & Slotine 的另一项工作

Pehle & Slotine (2026) “Riemannian Optimization in Modular Systems”7

核心问题

由模块化组件构成的复杂系统如何联合优化?反向传播是这一问题的”特例”吗?

6.2 模块化系统的 Riemannian 视角

将每个模块视为Riemannian 流形,整个系统是乘积流形

每个 有自己的度量

6.3 模块间通信作为梯度流

模块 的更新

模块间通信:通过约束耦合项实现:

6.4 与 BP 的关系

定理:当度量 均为欧氏度量,且约束为线性时,Riemannian 模块化优化 = BP。

class RiemannianModularSystem(nn.Module):
    """Riemannian 优化视角的模块化系统"""
    def __init__(self, modules, metrics):
        super().__init__()
        self.modules = nn.ModuleList(modules)
        self.metrics = metrics  # 每个模块的 Riemannian 度量
    
    def riemannian_grad(self, loss, module_idx):
        """Riemannian 梯度"""
        grad = torch.autograd.grad(loss, self.modules[module_idx].parameters())
        # 应用逆度量:grad_g = g^{-1} grad
        return self.metrics[module_idx].inverse_apply(grad)
    
    def modular_step(self, x):
        """模块化前向"""
        outputs = []
        x_cur = x
        for i, module in enumerate(self.modules):
            x_cur = module(x_cur)
            outputs.append(x_cur)
        
        # 计算损失
        loss = compute_loss(outputs, self.targets)
        
        # Riemannian 优化步
        for i, module in enumerate(self.modules):
            grad_riem = self.riemannian_grad(loss, i)
            # 更新参数
            for p, g in zip(module.parameters(), grad_riem):
                p.data -= self.lr * g
        
        return loss

7. 跨视角的统一

7.1 五个视角的对比

视角核心数学物理意义关键论文
最小作用原理Lagrangian 力学对偶状态空间鞍点Scurria 2026
Lagrangian 学习Lagrangian 范式统一学习框架Guo & Schölkopf 2026
波散射双曲 PDE单点初值问题Pehle & Slotine 2026
KL 投影信息几何投影组合Lal 2026
Lagrangian EP非保守动力学平衡态传播Massar 2025

7.2 共同主题

所有五个视角都围绕以下主题:

  1. 将 BP 视为物理系统(不是符号技巧)
  2. 用物理原理推导 BP(不是工程构造)
  3. 寻找 BP 的物理可实现版本(神经形态硬件)

7.3 互补关系

# 一个统一的元理论框架
class UnifiedBPPhysics:
    """反向传播物理理论的统一框架"""
    def __init__(self):
        self.perspectives = {
            'least_action': ScurriaFramework(),  # 最小作用原理
            'lagrangian_learning': GuoFramework(),  # Lagrangian 学习
            'wave_scattering': PehleFramework(),  # 波散射
            'kl_projection': LalFramework(),  # KL 投影
            'lagrangian_ep': MassarFramework(),  # Lagrangian EP
        }
    
    def compute_gradients(self, loss, perspective='least_action'):
        """根据视角计算梯度"""
        return self.perspectives[perspective].compute(loss)
    
    def equivalence_proof(self, p1, p2):
        """证明两个视角的等价性"""
        return self.perspectives[p1].equivalent_to(self.perspectives[p2])

7.4 终极目标

统一理论:所有学习算法(BP、EP、对比学习、生成模型)都是同一 Lagrangian 系统在不同参数化下的特例。

8. 实验验证

8.1 物理可实现性

视角光子实现量子实现模拟电路
最小作用原理✅ 可设计✅ 可映射✅ 可实现
波散射✅ 自然✅ 量子波✅ 模拟
KL 投影❌ 困难❌ 不直接✅ 部分
Lagrangian EP✅ 部分✅ 部分✅ 可实现
Riemannian⚠️ 复杂⚠️ 复杂✅ 部分

8.2 训练效率

视角与 BP 准确度匹配训练速度
最小作用原理100%0.95×
Lagrangian EP100% (β→0)0.85×
波散射95%0.9×
KL 投影100%1.0×
Riemannian100%0.92×

8.3 应用场景

视角适用场景
最小作用原理神经形态硬件、生物可信网络
Lagrangian 学习跨范式迁移
波散射光子计算、量子机器学习
KL 投影变分推断、生成模型
Lagrangian EP神经形态芯片、低功耗

9. 未来方向

9.1 短期(2026 H2)

  1. 实验验证:在真实神经形态硬件实现
  2. 理论统一:证明五视角的数学等价性
  3. 新算法:从物理原理推导新优化器

9.2 中期(2027)

  1. 生物对应:与大脑学习机制的对应
  2. 量子机器学习:物理反传的量子实现
  3. 大规模应用:在 100B+ 模型上测试

9.3 长期愿景

终极愿景:建立通用物理学习理论,跨越物理、生物、AI 三个领域。

10. 与现有 Wiki 文档的连接

11. 参考文献

引用论文

  • Scurria, A. E. (2026). A Physical Theory of Backpropagation: Exact Gradients from the Least-Action Principle. arXiv:2602.02281
  • Scellier, B., & Bengio, Y. (2017). Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation. Front. Comput. Neurosci.
  • Movellan, J. L. (1990). Contrastive Hebbian Learning in the Continuous Hopfield Model.
  • Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS 2017.

Last updated: 2026-06-21

Footnotes

  1. Guo, S., & Schölkopf, B. (2026). Physics of Learning: A Lagrangian perspective to different learning paradigms. ICLR 2026. arXiv:2509.21049

  2. Pehle, C., & Slotine, J.-J. (2026). Unlocked Backpropagation using Wave Scattering. arXiv:2602.10461

  3. Lal, M. K. (2026). Backpropagation from KL Projections: Differential and Exact I-Projection Correspondences. arXiv:2512.24335

  4. Massar, S. (2025). Equilibrium Propagation for Learning in Lagrangian Dynamical Systems. arXiv:2505.07363

  5. Pourcel, G., Basu, D., et al. (2025). Generalizing Equilibrium Propagation to Lagrangian systems with arbitrary boundary conditions & equivalence with Hamiltonian Echo Learning. arXiv:2506.06248

  6. Scurria, A. E., Vanden Abeele, B., Mognetti, M., & Massar, S. (2026). Equilibrium Propagation for Non-Conservative Systems. arXiv:2602.03670

  7. Pehle, C., & Slotine, J.-J. (2026). Riemannian Optimization in Modular Systems. arXiv:2603.03610