信念传播在深度学习中的应用

1 引言

信念传播（Belief Propagation, BP）是概率图模型中最重要的推断算法之一。2024-2025年的研究表明，BP与深度学习存在深刻的联系——Transformer的自注意力机制本质上是一种高斯置信传播的近似实现¹。

这种联系催生了一系列将BP原则融入深度学习的新架构，包括：

SAOBP：自注意力一步置信传播
DAMP：微分注意力消息传递
深度因子图：将BP融入神经网络训练

2 置信传播基础回顾

2.1 因子图表示

置信传播在因子图上操作。因子图是一个二部图，包含两类节点：

变量节点 $X = {x_{1}, x_{2}, \dots, x_{n}}$
因子节点 $F = {f_{1}, f_{2}, \dots, f_{m}}$

因子节点与变量节点之间通过边连接，表示变量上的函数依赖关系。

联合分布分解：

p (X) = \frac{1}{Z} a \in F \prod f_{a} (X_{a})

其中 $X_{a}$ 是与因子 $f_{a}$ 关联的变量子集， $Z$ 是归一化常数。

2.2 和-积算法

和-积算法（Sum-Product Algorithm）计算边缘分布：

p (x_{i}) = X ∖ {x_{i}} \sum a \in F \prod f_{a} (X_{a})

消息传递规则：

变量到因子：

μ_{x_{i} \to f_{a}} (x_{i}) = b \in N (i) ∖ a \prod μ_{f_{b} \to x_{i}} (x_{i})

因子到变量：

μ_{f_{a} \to x_{i}} (x_{i}) = X_{a} ∖ {x_{i}} \sum f_{a} (X_{a}) j \in N (a) ∖ i \prod μ_{x_{j} \to f_{a}} (x_{j})

2.3 高斯置信传播

当所有势函数都是高斯分布时，BP可以简化为均值和方差的传递：

消息表示：每个消息由均值 $μ$ 和方差 $σ^{2}$ 参数化：

μ_{x \to f} (x) \sim N (μ_{x \to f}, σ_{x \to f}^{2})

消息更新：

μ_{f \to x} = \frac{\sum _{y \in N (f) ∖ x} μ _{y \to f} / σ _{y \to f}^{2}}{\sum _{y \in N (f) ∖ x} 1/ σ _{y \to f}^{2}}

σ_{f \to x}^{- 2} = y \in N (f) ∖ x \sum σ_{y \to f}^{- 2}

3 自注意力作为近似BP

3.1 从BP视角看注意力

考虑一个完全图上的因子图模型，每个token $h_{i}$ 是一个变量节点，所有变量通过因子连接。

因子势函数定义注意力权重：

f_{ij} (h_{i}, h_{j}) = exp (\frac{h _{i}^{T} W _{Q}^{T} W _{K} h _{j}}{d _{k}})

消息定义：

m_{i \to j} = softmax_{j} (\frac{h _{i}^{T} W _{Q}^{T} W _{K} h}{d _{k}}) \cdot W_{V} h

与标准BP的对应：

BP组件	注意力实现
势函数 $ψ_{ij}$	$e^{h_{i}^{T} W_{Q}^{T} W_{K} h_{j} / d_{k}}$
变量消息 $μ_{x_{i} \to f_{a}}$	Query投影 $h_{i} W_{Q}$
因子消息 $μ_{f_{a} \to x_{i}}$	注意力加权聚合
归一化	softmax

3.2 BP视角的解释

定理¹：在以下假设下，自注意力等价于完全图上的高斯置信传播：

高斯势函数： $ψ_{ij} (h_{i}, h_{j}) = exp (- ∥ h_{i} - W_{ij} h_{j} ∥^{2} / (2 σ^{2}))$
线性变换： $W_{ij} = W_{Q}^{T} W_{K}$ 是低秩分解
消息传递：一次迭代（Transformer通常只做一层）

关键洞察：softmax操作对应于BP中的归一化因子，确保消息是概率分布。

4 SAOBP：自注意力一步置信传播

4.1 设计动机

标准自注意力的一个问题是注意力局部化（attention localization）——随着层数加深，注意力倾向于关注少数几个token，丢失全局信息。

SAOBP²通过引入一步BP细化来解决这个问题：

核心思想：

保持原有的自注意力层
额外增加一步BP细化
防止熵崩溃

4.2 算法流程

输入：序列表示 $H^{(l)} = [h_{1}^{(l)}, \dots, h_{n}^{(l)}]$

步骤1：自注意力

\tilde{H} = Attention (H^{(l)}) = softmax (\frac{Q K ^{T}}{d _{k}}) V

步骤2：BP细化

h_{i}^{(l + 1)} = α \cdot \tilde{h}_{i} + (1 - α) \cdot BP-REFINE (h_{i}^{(l)}, \tilde{h}_{i})

其中BP-REFINE执行一步置信传播：

h_{i}^{BP} = j = 1 \sum n β_{ij} \tilde{h}_{j}

权重 $β_{ij}$ 由二元势函数决定：

β_{ij} = σ (w^{T} [h_{i}^{(l)}, \tilde{h}_{i}, \tilde{h}_{j}])

4.3 熵守恒分析

SAOBP的一个关键性质是熵守恒：

定理：SAOBP细化后的分布熵满足

H (BP-REFINE (h)) \geq H (\tilde{h})

这确保了注意力分布不会过度锐化。

实验验证（BERT-base）：

层	标准注意力熵	SAOBP注意力熵
1	4.23	4.35
6	3.18	4.02
12	2.45	3.89

5 DAMP：微分注意力消息传递

5.1 框架概述

DAMP³将BP原则系统地融入Transformer，用于纠错编码（Error Correction Coding）：

核心组件：

和-积消息传递层：实现BP的消息更新
软 Syndromes：用于错误检测
差异化操作：处理非线性激活

5.2 和-积消息传递层

变量消息：

m_{v \to a}^{(t)} = MLP (AGG ({m_{u \to v}^{(t - 1)} : u \in N (v) ∖ a}))

因子消息：

m_{a \to v}^{(t)} = MLP (AGG ({m_{v \to a}^{(t)}, s_{a}}))

其中 $s_{a}$ 是 syndrome 特征。

5.3 软 Syndromes

定义：软 syndrome 是对硬 syndrome 的软化：

s_{a}^{soft} = σ (w_{s}^{T} \cdot [m_{a \to v}, LLR (c_{a})])

其中 $LLR (c_{a})$ 是信道对数似比。

5.4 与标准注意力的对比

特性	标准注意力	DAMP
消息类型	点积相似度	可学习的因子函数
归一化	softmax	和-积归一化
信息保留	选择性	全部保留（乘积）
非线性处理	内置于softmax	微分操作显式处理

5.5 实验结果

LDPC解码任务：

方法	误码率 (SNR=3dB)	迭代次数
标准BP	$1.2 \times 1 0^{- 3}$	50
标准Transformer	$8.5 \times 1 0^{- 4}$	1
DAMP	$3.2 \times 1 0^{- 5}$	5

6 深度因子图

6.1 基本思想

深度因子图⁴将所有量（输入、输出、参数）都视为随机变量，构建统一的概率图模型：

p (X, Y, θ) = p (θ) i \prod p (y_{i} ∣ f (x_{i}, θ)) \cdot p (x_{i})

其中 $f$ 是神经网络函数。

6.2 高斯BP推断

在深度因子图中使用高斯BP进行推断：

参数后验：

q (θ) = N (μ_{θ}, Σ_{θ})

预测分布：

q (y ∣ x) = \int p (y ∣ f (x, θ)) q (θ) d θ

6.3 训练作为推断

E步：更新后验参数

μ_{θ}^{(n e w)} = μ_{θ} - η \cdot \nabla_{μ} L

Σ_{θ}^{(n e w)} = Σ_{θ} - η \cdot \nabla_{Σ} L

M步：更新似然参数

训练过程等价于在高维参数空间中进行置信传播。

6.4 优势

分布式训练：消息传递天然支持分布式计算
异步更新：不同参数可以独立更新
自然持续学习：新任务作为新因子加入图
不确定性量化：协方差矩阵量化预测不确定性

7 快速深度BP

7.1 问题背景

标准深度BP（Deep BP）计算量大，特别是在大规模实例上。

快速深度BP（FDBP）⁵通过解耦阻尼与迭代来加速：

核心观察：阻尼系数 $λ$ 控制收敛速度，但不影响最终解。

策略：先用小阻尼快速收敛，再用大步长精确化。

7.2 GPU加速实现

def fast_deep_bp(G, damping=0.8, max_iter=100, tol=1e-6):
    # 初始化消息
    messages = initialize_messages(G)
    
    for iteration in range(max_iter):
        # 批量消息更新
        new_messages = batch_message_update(G, messages)
        
        # 阻尼
        messages = damping * messages + (1 - damping) * new_messages
        
        # 检查收敛
        if check_convergence(messages, new_messages, tol):
            break
    
    return messages

7.3 性能对比

方法	时间(s)	内存(GB)	精度
DABP	12.3	8.5	98.2%
FDBP	4.3	6.2	98.1%

8 实践指南

8.1 何时使用BP增强的Transformer

适合场景：

需要全局信息传递的任务
多跳推理问题
结构化输出（如代码生成、分子设计）
不确定性量化需求

不适合场景：

局部模式足够的数据（如图像）
计算资源受限
实时性要求极高

8.2 实现建议

BP层设计原则：

消息函数选择：
- 简单任务：线性消息
- 复杂任务：MLP消息
迭代次数：
- 通常1-3次足够
- 更多迭代收益递减
与其他组件结合：
- 与残差连接结合
- 与层归一化结合

9 总结

信念传播与深度学习的融合开辟了新的研究方向：

已验证的联系：

自注意力 ≈ 完全图上的高斯BP
SAOBP防止注意力局部化
DAMP将BP用于纠错编码
深度因子图统一训练与推断

开放问题：

如何在大规模Transformer中高效实现BP？
BP与注意力如何协同？
如何自动学习最优的消息函数？

参考文献

Transformers as Bayesian Networks: Belief Propagation Perspective. arXiv:2305.17583. 2024. ↩ ↩²
Self-Attention One-step Belief Propagation (SAOBP). arXiv:2509.07324. 2025. ↩
Differential-Attention Message Passing Transformer for Error Correction Coding. arXiv:2509.15637. 2025. ↩
Deep Factor Graphs with Gaussian Belief Propagation. ICML 2024. ↩
Fast Deep BP: GPU-Accelerated Belief Propagation for Large-Scale Inference. Mathematics 2025. ↩

Metaphor

探索

信念传播在深度学习中的应用

信念传播在深度学习中的应用

1 引言

2 置信传播基础回顾

2.1 因子图表示

2.2 和-积算法

2.3 高斯置信传播

3 自注意力作为近似BP

3.1 从BP视角看注意力

3.2 BP视角的解释

4 SAOBP：自注意力一步置信传播

4.1 设计动机

4.2 算法流程

4.3 熵守恒分析

5 DAMP：微分注意力消息传递

5.1 框架概述

5.2 和-积消息传递层

5.3 软 Syndromes

5.4 与标准注意力的对比

5.5 实验结果

6 深度因子图

6.1 基本思想

6.2 高斯BP推断

6.3 训练作为推断

6.4 优势

7 快速深度BP

7.1 问题背景

7.2 GPU加速实现

7.3 性能对比

8 实践指南

8.1 何时使用BP增强的Transformer

8.2 实现建议

9 总结

参考文献

关系图谱

目录

反向链接

Metaphor

探索

信念传播在深度学习中的应用

信念传播在深度学习中的应用

1 引言

2 置信传播基础回顾

2.1 因子图表示

2.2 和-积算法

2.3 高斯置信传播

3 自注意力作为近似BP

3.1 从BP视角看注意力

3.2 BP视角的解释

4 SAOBP：自注意力一步置信传播

4.1 设计动机

4.2 算法流程

4.3 熵守恒分析

5 DAMP：微分注意力消息传递

5.1 框架概述

5.2 和-积消息传递层

5.3 软 Syndromes

5.4 与标准注意力的对比

5.5 实验结果

6 深度因子图

6.1 基本思想

6.2 高斯BP推断

6.3 训练作为推断

6.4 优势

7 快速深度BP

7.1 问题背景

7.2 GPU加速实现

7.3 性能对比

8 实践指南

8.1 何时使用BP增强的Transformer

8.2 实现建议

9 总结

参考文献

Footnotes

关系图谱

目录

反向链接