信念传播在深度学习中的应用

1 引言

信念传播(Belief Propagation, BP)是概率图模型中最重要的推断算法之一。2024-2025年的研究表明,BP与深度学习存在深刻的联系——Transformer的自注意力机制本质上是一种高斯置信传播的近似实现1

这种联系催生了一系列将BP原则融入深度学习的新架构,包括:

  • SAOBP:自注意力一步置信传播
  • DAMP:微分注意力消息传递
  • 深度因子图:将BP融入神经网络训练

2 置信传播基础回顾

2.1 因子图表示

置信传播在因子图上操作。因子图是一个二部图,包含两类节点:

  1. 变量节点
  2. 因子节点

因子节点与变量节点之间通过边连接,表示变量上的函数依赖关系。

联合分布分解

其中 是与因子 关联的变量子集, 是归一化常数。

2.2 和-积算法

和-积算法(Sum-Product Algorithm)计算边缘分布:

消息传递规则

变量到因子

因子到变量

2.3 高斯置信传播

当所有势函数都是高斯分布时,BP可以简化为均值和方差的传递

消息表示:每个消息由均值 和方差 参数化:

消息更新

3 自注意力作为近似BP

3.1 从BP视角看注意力

考虑一个完全图上的因子图模型,每个token 是一个变量节点,所有变量通过因子连接。

因子势函数定义注意力权重:

消息定义

与标准BP的对应

BP组件注意力实现
势函数
变量消息 Query投影
因子消息 注意力加权聚合
归一化softmax

3.2 BP视角的解释

定理1:在以下假设下,自注意力等价于完全图上的高斯置信传播:

  1. 高斯势函数
  2. 线性变换 是低秩分解
  3. 消息传递:一次迭代(Transformer通常只做一层)

关键洞察:softmax操作对应于BP中的归一化因子,确保消息是概率分布。

4 SAOBP:自注意力一步置信传播

4.1 设计动机

标准自注意力的一个问题是注意力局部化(attention localization)——随着层数加深,注意力倾向于关注少数几个token,丢失全局信息。

SAOBP2通过引入一步BP细化来解决这个问题:

核心思想

  • 保持原有的自注意力层
  • 额外增加一步BP细化
  • 防止熵崩溃

4.2 算法流程

输入:序列表示

步骤1:自注意力

步骤2:BP细化

其中BP-REFINE执行一步置信传播:

权重 二元势函数决定:

4.3 熵守恒分析

SAOBP的一个关键性质是熵守恒

定理:SAOBP细化后的分布熵满足

这确保了注意力分布不会过度锐化。

实验验证(BERT-base):

标准注意力熵SAOBP注意力熵
14.234.35
63.184.02
122.453.89

5 DAMP:微分注意力消息传递

5.1 框架概述

DAMP3将BP原则系统地融入Transformer,用于纠错编码(Error Correction Coding)

核心组件

  1. 和-积消息传递层:实现BP的消息更新
  2. 软 Syndromes:用于错误检测
  3. 差异化操作:处理非线性激活

5.2 和-积消息传递层

变量消息

因子消息

其中 是 syndrome 特征。

5.3 软 Syndromes

定义:软 syndrome 是对硬 syndrome 的软化:

其中 是信道对数似比。

5.4 与标准注意力的对比

特性标准注意力DAMP
消息类型点积相似度可学习的因子函数
归一化softmax和-积归一化
信息保留选择性全部保留(乘积)
非线性处理内置于softmax微分操作显式处理

5.5 实验结果

LDPC解码任务

方法误码率 (SNR=3dB)迭代次数
标准BP50
标准Transformer1
DAMP5

6 深度因子图

6.1 基本思想

深度因子图4将所有量(输入、输出、参数)都视为随机变量,构建统一的概率图模型:

其中 是神经网络函数。

6.2 高斯BP推断

在深度因子图中使用高斯BP进行推断:

参数后验

预测分布

6.3 训练作为推断

E步:更新后验参数

M步:更新似然参数

训练过程等价于在高维参数空间中进行置信传播

6.4 优势

  1. 分布式训练:消息传递天然支持分布式计算
  2. 异步更新:不同参数可以独立更新
  3. 自然持续学习:新任务作为新因子加入图
  4. 不确定性量化:协方差矩阵量化预测不确定性

7 快速深度BP

7.1 问题背景

标准深度BP(Deep BP)计算量大,特别是在大规模实例上。

快速深度BP(FDBP)5通过解耦阻尼与迭代来加速:

核心观察:阻尼系数 控制收敛速度,但不影响最终解。

策略:先用小阻尼快速收敛,再用大步长精确化。

7.2 GPU加速实现

def fast_deep_bp(G, damping=0.8, max_iter=100, tol=1e-6):
    # 初始化消息
    messages = initialize_messages(G)
    
    for iteration in range(max_iter):
        # 批量消息更新
        new_messages = batch_message_update(G, messages)
        
        # 阻尼
        messages = damping * messages + (1 - damping) * new_messages
        
        # 检查收敛
        if check_convergence(messages, new_messages, tol):
            break
    
    return messages

7.3 性能对比

方法时间(s)内存(GB)精度
DABP12.38.598.2%
FDBP4.36.298.1%

8 实践指南

8.1 何时使用BP增强的Transformer

适合场景

  • 需要全局信息传递的任务
  • 多跳推理问题
  • 结构化输出(如代码生成、分子设计)
  • 不确定性量化需求

不适合场景

  • 局部模式足够的数据(如图像)
  • 计算资源受限
  • 实时性要求极高

8.2 实现建议

BP层设计原则

  1. 消息函数选择

    • 简单任务:线性消息
    • 复杂任务:MLP消息
  2. 迭代次数

    • 通常1-3次足够
    • 更多迭代收益递减
  3. 与其他组件结合

    • 与残差连接结合
    • 与层归一化结合

9 总结

信念传播与深度学习的融合开辟了新的研究方向:

已验证的联系

  • 自注意力 ≈ 完全图上的高斯BP
  • SAOBP防止注意力局部化
  • DAMP将BP用于纠错编码
  • 深度因子图统一训练与推断

开放问题

  • 如何在大规模Transformer中高效实现BP?
  • BP与注意力如何协同?
  • 如何自动学习最优的消息函数?

参考文献

Footnotes

  1. Transformers as Bayesian Networks: Belief Propagation Perspective. arXiv:2305.17583. 2024. 2

  2. Self-Attention One-step Belief Propagation (SAOBP). arXiv:2509.07324. 2025.

  3. Differential-Attention Message Passing Transformer for Error Correction Coding. arXiv:2509.15637. 2025.

  4. Deep Factor Graphs with Gaussian Belief Propagation. ICML 2024.

  5. Fast Deep BP: GPU-Accelerated Belief Propagation for Large-Scale Inference. Mathematics 2025.