Propagation Field：神经传播场几何理论

1. 背景与动机

传统深度学习理论关注的是端点映射 $f : R^{d} \to R^{k}$ ，即输入如何映射到输出。然而，这种视角忽略了一个关键问题：训练过程中，神经网络的内部表示是如何演化的？

2026年提出的Propagation Field（传播场）理论¹提供了一种全新的几何视角，将神经网络重新解释为一个由隐藏态轨迹构成的场。这个框架揭示了一个重要发现：端点等效的模型在传播场几何上可能有数量级的差异，这对于理解泛化、鲁棒性和校准具有深远意义。

2. 核心定义

2.1 神经传播场

给定一个神经网络 $f : R^{d} \to R^{k}$ ，其传播场定义为：

Φ (x_{0}) = {h_{τ} (x_{0}) : τ \in [0, T]}

其中：

$x_{0} \in R^{d}$ 是输入
$h_{τ} (x_{0})$ 是 $τ$ 层（深度）的隐藏表示
$T$ 是网络总层数

关键洞察：传播场是一个轨迹族，而不是一个点。

2.2 局部Jacobian算子

传播场的局部性质由Jacobian矩阵刻画：

J_{τ} (x_{0}) = \frac{\partial h _{τ} ( x _{0} )}{\partial x _{0}} \in R^{d_{τ} \times d}

Jacobian算子的性质决定了信息如何在网络中传播。

2.3 传播场的几何量

路径敏感性 (Path Sensitivity)

路径敏感性衡量输入扰动如何沿着轨迹放大：

S (x_{0}, T) = \int_{0}^{T} ∥ \partial_{x_{0}} h_{τ} (x_{0}) ∥_{F} d τ

其中 $∥ \cdot ∥_{F}$ 是Frobenius范数。

Jacobian保留度 (Jacobian Retention)

Jacobian保留度衡量网络保持输入信息的能力：

J (x_{0}, T) = \frac{1}{T} \int_{0}^{T} ∥ \partial_{x_{0}} h_{τ} (x_{0}) ∥_{F}^{2} d τ

求解器一致性 (Solver Consistency)

对于同一输入的两个求解器 $S_{1}, S_{2}$ ：

C (x_{0}) = \frac{1}{T} \int_{0}^{T} ⟨ h_{τ}^{(1)} (x_{0}), h_{τ}^{(2)} (x_{0})⟩ d τ

3. 端点等效性 vs 轨迹差异

3.1 端点等效模型

传统理论认为：如果两个网络在测试集上表现相同，则它们”等价”。例如：

∥ f_{1} (x) - f_{2} (x) ∥ < ϵ, \forall x \in X_{test}

则 $f_{1} \approx f_{2}$ 。

3.2 传播场视角的发现

Propagation Field理论揭示了一个惊人的事实：端点等效的模型在轨迹几何上可能有数量级的差异。

具体例子：

指标	模型A	模型B	比率
$S$ (路径敏感性)	12.3	156.7	12.7×
$J$ (Jacobian保留度)	0.89	0.12	7.4×
$C$ (一致性)	0.95	0.67	1.4×

3.3 这意味着什么？

端点只是轨迹的最后一个点。即使两个轨迹在终点重合，它们的全程路径可能完全不同。

4. 几何分析工具

4.1 曲率分析

传播场的曲率由以下量刻画：

κ (x_{0}, τ) = \frac{∥ \partial _{x_{0}}^{2} h _{τ} ( x _{0} ) ∥ _{F}}{∥ \partial _{x_{0}} h _{τ} ( x _{0} ) ∥ _{F}^{2}}

曲率越大，表示网络对输入扰动越敏感。

4.2 平行移动

信息在传播场中的”移动”类似于黎曼几何中的平行移动：

h_{τ + Δ τ} \approx P_{τ \to τ + Δ τ} (h_{τ})

其中 $P$ 是某种联络（connection）。

4.3 测地线

在传播场中，测地线是”最直线”的轨迹：

\ddot{h}_{τ} + Γ (h_{τ}, \dot{h}_{τ}) = 0

其中 $Γ$ 是Christoffel符号。

5. 关键发现

5.1 传播场决定泛化

实验发现，传播场的几何性质与泛化能力强相关：

Gen \approx g (S, J, C)

具体关系：

适中的路径敏感性 $S$ 与好的泛化相关
高的Jacobian保留度 $J$ 通常有益
高求解器一致性 $C$ 表示稳定的表示学习

5.2 传播场决定鲁棒性

对于对抗样本的鲁棒性：

Robust \approx h (S, J)

低的路径敏感性 $S$ 表示对输入扰动不敏感
但过于不敏感也会损害正常性能

5.3 传播场决定校准

预测的校准(calibration)与轨迹的几何性质相关：

∣ P (\overset{y}{^} = y) - conf (\overset{y}{^}) ∣ \approx f (C)

高一致性 $C$ 通常意味着更好的校准。

6. Field-Aware训练

6.1 训练目标

基于Propagation Field理论，可以设计Field-Aware训练：

L_{FA} = L_{CE} + λ_{1} L_{sens} + λ_{2} L_{ret} + λ_{3} L_{cons}

其中：

$L_{sens} = ∣ S - S^{*} ∣$ （敏感性损失）
$L_{ret} = - ∣ J - J^{*} ∣$ （保留度损失）
$L_{cons} = - C$ （一致性损失）

6.2 目标值的选择

目标	推荐值	理由
$S^{*}$	中等（0.5-2.0）	避免过度敏感
$J^{*}$	高（>0.8）	保留输入信息
$C^{*}$	高（>0.9）	稳定学习

6.3 实验结果

Field-Aware训练在以下任务上取得了改进：

任务	标准训练	Field-Aware	改进
ImageNet分类	76.2%	77.8%	+1.6%
CIFAR-10OOD	67.3%	72.1%	+4.8%
校准误差	0.052	0.031	-40%

7. 与其他理论的关系

7.1 与Learning Mechanics

Propagation Field可以视为Learning Mechanics的微观实现：

Learning Mechanics：关注宏观分布 $ρ_{t} (θ)$ 的演化
Propagation Field：关注隐藏态轨迹 $h_{τ} (x)$ 的几何

两者通过以下关系连接：

⟨ f (θ) ⟩_{macro} \leftrightarrow \int Φ (x) d P (x)

7.2 与Neural ODE

Propagation Field与Neural ODE有相似的数学结构：

Neural ODE:

\frac{d h}{d τ} = F (h, τ; θ)

Propagation Field:

h_{τ} (x_{0}) = trajectory starting from x_{0}

主要区别：Propagation Field关注的是一族轨迹（场），而不是单一轨迹。

7.3 与信息瓶颈

信息瓶颈理论关注压缩：

q min I (X; Z) - β I (Z; Y)

Propagation Field关注几何：

Φ (x) = {h_{τ} (x)}_{τ}

几何性质可能比信息论描述更精细。

8. 应用场景

8.1 架构搜索

在神经架构搜索(NAS)中使用传播场指标：

Score (A) = α \cdot Acc (A) + β \cdot \frac{1}{S ( A )} + γ \cdot J (A)

8.2 模型选择

使用传播场度量选择更好的初始化或checkpoint：

θ^{*} = ar g θ max C (θ) s.t. L (θ) < ϵ

8.3 知识蒸馏

设计蒸馏损失以保持教师模型的传播场：

L_{distill} = ∥ h_{τ}^{student} - P (h_{τ}^{teacher}) ∥^{2}

8.4 可解释性

分析不同任务如何塑造传播场：

分类任务：通常产生高Jacobian保留度
生成任务：通常产生低路径敏感性
强化学习：传播场结构与策略质量相关

9. 计算方法

9.1 Jacobian的 Efficient计算

使用随机投影法避免完整的Jacobian计算：

\tilde{J}_{τ} = \frac{1}{k} i = 1 \sum k \frac{\partial h _{τ}}{\partial u _{i}} \cdot u_{i}^{T}

其中 $u_{i} \sim N (0, I)$ 是随机方向。

9.2 轨迹采样

对于大型模型，使用分层采样：

将层均匀分成 $B$ 个bucket
在每个bucket中随机选择一层
计算该层的几何量

9.3 PyTorch实现

import torch
import torch.nn as nn
from torch.autograd import grad
 
def compute_jacobian_retention(model, x, depth_range=(0, 1.0)):
    """
    计算Jacobian保留度
    """
    x.requires_grad_(True)
    
    # 前向传播记录中间激活
    activations = []
    def hook(module, input, output):
        activations.append(output)
    
    handles = []
    for name, module in model.named_modules():
        if 'relu' in name.lower() or 'linear' in name.lower():
            handles.append(module.register_forward_hook(hook))
    
    # 前向传播
    output = model(x)
    
    # 移除hook
    for h in handles:
        h.remove()
    
    # 计算Jacobian
    n = x.shape[0]
    JTs = []
    for act in activations:
        if act.requires_grad:
            J = grad(act, x, grad_outputs=torch.eye(act.shape[1], device=x.device)[:act.shape[1]], 
                    retain_graph=True, create_graph=True)[0]
            # Jacobian retention
            retention = (J ** 2).sum() / (n * act.shape[1])
            JTs.append(retention)
    
    return torch.stack(JTs).mean()
 
def compute_path_sensitivity(model, x, eps=1e-3):
    """
    计算路径敏感性
    """
    x.requires_grad_(True)
    output = model(x)
    
    # 对每个样本计算梯度范数
    grads = []
    for i in range(x.shape[0]):
        g = grad(output[i].sum(), x, retain_graph=True)[0][i]
        grads.append(g.norm())
    
    return torch.stack(grads).mean()

10. 未来方向

10.1 理论深化

几何度量与泛化的精确关系
- 目前只有相关性，需要因果解释
跨架构的传播场不变量
- 是否存在某些几何量跨架构保持不变？
传播场的统计力学
- 类似于分子运动论，建立传播场的统计描述

10.2 应用扩展

多模态传播场
- 视觉-语言模型的跨模态传播场
循环网络的传播场
- 时间维度上的传播场
图神经网络的传播场
- 消息传递的几何分析

10.3 计算优化

更高效的Jacobian计算
- Hutchinson方法、幂迭代
传播场的低秩近似
- 用于大规模分析

11. 总结

Propagation Field理论提供了一个几何视角来理解深度学习，揭示了端点等效模型在轨迹几何上的本质差异。这一发现对于：

泛化：几何性质比端点更能预测泛化能力
鲁棒性：传播场结构与对抗鲁棒性相关
校准：轨迹一致性影响预测校准
训练：Field-Aware训练可以改善模型

Propagation Field与Learning Mechanics形成互补，共同构成了深度学习理论的几何-力学框架。

Metaphor

探索

Propagation Field 神经传播场几何理论