概率图模型与深度学习融合

概率图模型（Probabilistic Graphical Models, PGM）和深度学习（Deep Learning, DL）代表了人工智能中两种强大的建模范式。前者以贝叶斯神经网络和概率图统一理论为基础，强调可解释性与不确定性量化；后者则以强大的表示学习能力著称。近年来，这两个领域的融合日益深入，催生了一系列兼具两者优势的新方法。¹

本文系统性地梳理概率图模型与深度学习融合的核心思想，揭示神经网络、图神经网络、序列模型和生成模型的概率本质。

1. 概率图视角看神经网络

1.1 神经网络作为概率模型

从概率图的角度审视，神经网络本质上定义了一个条件概率分布。设神经网络为函数 $f_{θ} : X \to Y$ ，参数为 $θ$ 。

判别模型视角：神经网络编码了 $p (y ∣ x; θ)$ 的参数化形式。对于分类任务：

p_{θ} (y ∣ x) = Softmax (f_{θ} (x))_{y}

对于回归任务：

p_{θ} (y ∣ x) = N (y ∣ f_{θ} (x), σ^{2})

生成模型视角：神经网络也可视为定义联合分布 $p (x, y; θ) = p (y ∣ x; θ) p (x)$ 的有向图模型。变分推断技术在这一框架下被广泛应用。

1.2 Softmax 与归一化的概率解释

Softmax 函数是神经网络输出层的核心组件，其概率解释深刻：

Softmax (z_{i}) = \frac{exp ( z _{i} )}{\sum _{j} exp ( z _{j} )} = p (y = i ∣ x) = \frac{p ( x ∣ y = i ) p ( y = i )}{p ( x )}

这暗示了 softmax 与贝叶斯推断的内在联系。当 logits $z$ 来自能量函数 $E (x, y)$ 时：

Softmax (z_{i}) \propto exp (- E (x, y_{i}))

这正是玻尔兹曼分布的形式，连接了概率图模型中的能量模型与神经网络。

1.3 注意力作为概率推断

注意力机制（注意力机制）可以从概率推断的角度重新诠释。考虑一个查询 $q$ 对一组键值对 $(k_{i}, v_{i})$ 的注意力：

Attention (q, K, V) = i \sum p (q \to k_{i}) \cdot v_{i}, p (q \to k_{i}) = \frac{exp ( sim ( q , k _{i} ))}{\sum _{j} exp ( sim ( q , k _{j} ))}

概率解释：

组件	概率意义
$sim (q, k_{i})$	查询 $q$ 与键 $k_{i}$ 的兼容性度量，可视为 $- lo g p (k_{i} ∣ q)$
Softmax 归一化	在给定 $q$ 下对 $k_{i}$ 的后验分布
加权和	关于 $v$ 的期望：$\mathbb{E}_{p(k

从马尔可夫链视角，注意力矩阵本身就是转移概率矩阵，定义了在 token 序列上的随机游走。

1.4 Dropout 的贝叶斯解释

Dropout 是一种广泛使用的正则化技术，其贝叶斯解释是MC Dropout的核心。²

变分推断视角：Dropout 可视为对神经网络权重进行伯努利变分推断：

q (w_{l}) = w_{l} \cdot z_{l}, z_{l} \sim Bernoulli (1 - p)

其中 $z_{l}$ 是 dropout mask， $p$ 是保留概率。

贝叶斯后验预测：

p (y^{*} ∣ x^{*}, D) \approx \frac{1}{T} t = 1 \sum T p (y^{*} ∣ x^{*}, \hat{θ}_{t})

其中 $\hat{θ}_{t}$ 是 $T$ 次 dropout 采样对应的网络参数。这提供了一种无需额外训练即可量化预测不确定性的方法。

import torch
import torch.nn as nn
 
def mc_dropout_predict(model, x, n_samples=30, p_dropout=0.5):
    """
    MC Dropout 预测：多次采样取平均
    
    Args:
        model: 带有 Dropout 的 PyTorch 模型
        x: 输入张量 (batch_size, dim)
        n_samples: MC 采样次数
        p_dropout: Dropout 概率
    Returns:
        mean: 预测均值
        std: 预测标准差（不确定性估计）
    """
    model.train()  # 开启 dropout
    
    predictions = []
    for _ in range(n_samples):
        with torch.no_grad():
            output = model(x)
            predictions.append(output)
    
    predictions = torch.stack(predictions)  # (n_samples, batch_size, num_classes)
    mean = predictions.mean(dim=0)
    std = predictions.std(dim=0)  # 不确定性估计
    
    return mean, std

2. 图神经网络与概率图

2.1 GNN 作为概率推断

图神经网络（图神经网络）通过消息传递聚合邻居信息。从概率图角度，这对应于近似推断过程。³

马尔可夫随机场视角：设图 $G = (V, E)$ ，节点 $i$ 的标签为 $y_{i}$ ，特征为 $x_{i}$ 。节点条件分布：

p (y_{i} ∣ x, G) \propto exp ϕ_{i} (y_{i}, x_{i}) + j \in N (i) \sum ϕ_{ij} (y_{i}, y_{j})

消息传递的贝叶斯解释：

m_{ij}^{(t + 1)} (y_{j}) = y_{i} \sum ψ_{ij} (y_{i}, y_{j}) \cdot h_{i}^{(t)} (y_{i})

其中 $h_{i}^{(t)}$ 是节点 $i$ 在第 $t$ 层的”信念”（belief），消息 $m_{ij}$ 传递了从 $i$ 到 $j$ 的信息。这正是图神经网络概率推断的核心思想。

2.2 信念传播在 GNN 中的应用

**置信度传播（Belief Propagation, BP）**是图模型精确推断的核心算法。在树结构图上，BP 可以精确计算边缘分布。

和积算法（Sum-Product Algorithm）：

b_{i} (y_{i}) \propto ψ_{i} (y_{i}) j \in N (i) \prod m_{ji} (y_{i})

m_{ij} (y_{j}) \propto y_{i} \sum ψ_{ij} (y_{i}, y_{j}) ψ_{i} (y_{i}) k \in N (i) ∖ j \prod m_{ki} (y_{i})

GNN 与 BP 的对应关系：

置信度传播	图神经网络
消息计算	消息函数 $M (h_{i}, h_{j}, e_{ij})$
信念更新	聚合函数 $AGG ({h_{j}^{(l)}})$
势函数	神经网络参数化

2.3 变分推断与 GNN

变分推断（变分推断进阶）为 GNN 中的不确定性建模提供了理论框架。

变分推断目标：最小化变分分布 $q (H ∣ X)$ 与真实后验 $p (H ∣ X, A)$ 的 KL 散度。

证据下界（ELBO）：

L = E_{q} [lo g p (Y ∣ H)] - D_{KL} (q (H ∣ X) ∥ p (H))

变分 GNN 的消息传递：

q^{(l + 1)} (h_{i}^{(l + 1)}) = Update (q (h_{i}^{(l)}), {q (h_{j}^{(l)})_{j \in N (i)})

这引出了变分图神经网络的研究方向。

2.4 与谱图理论的联系

谱图理论与概率图模型存在深刻联系。图的拉普拉斯矩阵 $L = D - A$ 提供了谱域分析的基础。

图傅里叶变换：

\hat{f}_{k} = ⟨ f, u_{k} ⟩ = i = 1 \sum n f (i) u_{k} (i)

其中 $u_{k}$ 是拉普拉斯矩阵的特征向量。

概率解释：图的特征向量定义了在图上的傅里叶变换基，通过谱域的平滑先验可以实现图的半监督学习：

p (f) \propto exp (- \frac{λ}{2} f^{T} L f)

3. 序列模型与概率图

3.1 RNN 作为动态贝叶斯网络

循环神经网络（RNN）可以优雅地表示为动态贝叶斯网络（DBN）。⁴

DBN 结构：在时间维度上展开，RNN 形成一个有向无环图：

时间步 t-1          时间步 t          时间步 t+1
     │                  │                  │
     ▼                  ▼                  ▼
┌─────────┐        ┌─────────┐        ┌─────────┐
│ h_{t-1}│───────▶│   h_t   │───────▶│ h_{t+1}│
└─────────┘        └─────────┘        └─────────┘
     │                  │                  │
     ▼                  ▼                  ▼
┌─────────┐        ┌─────────┐        ┌─────────┐
│ x_{t-1}│        │   x_t   │        │ x_{t+1} │
└─────────┘        └─────────┘        └─────────┘

概率分解：

p (h_{1 : T}, x_{1 : T}) = p (h_{0}) t = 1 \prod T p (h_{t} ∣ h_{t - 1}, x_{t}) p (x_{t} ∣ h_{t})

3.2 LSTM/GRU 的门控机制

LSTM（LSTM）和 GRU 的门控机制可以通过条件概率和信息流动来解释。

LSTM 单元的数学形式：

f_{t} i_{t} C_{t} C_{t} o_{t} h_{t} = σ (W_{f} \cdot [h_{t - 1}, x_{t}] + b_{f}) = σ (W_{i} \cdot [h_{t - 1}, x_{t}] + b_{i}) = tanh (W_{C} \cdot [h_{t - 1}, x_{t}] + b_{C}) = f_{t} ⊙ C_{t - 1} + i_{t} ⊙ \tilde{C}_{t} = σ (W_{o} \cdot [h_{t - 1}, x_{t}] + b_{o}) = o_{t} ⊙ tanh (C_{t}) 遗忘门 输入门 候选记忆 记忆更新 输出门 隐藏状态

概率解释：

门控	概率意义
遗忘门 $f_{t}$	从先前记忆中保留信息的概率
输入门 $i_{t}$	接收新信息的概率
输出门 $o_{t}$	从记忆中读取信息的概率

这种设计天然地实现了选择性注意力——根据当前输入动态决定信息的保留与遗忘。

3.3 Transformer 的概率解释

Transformer（Transformer）的概率解释是当前研究的热点。注意力矩阵、位置编码都可以从概率图模型角度理解。⁵

注意力矩阵的概率解释：

A_{ij} = \frac{exp ( q _{i}^{⊤} k _{j} / d )}{\sum _{l = 1}^{n} exp ( q _{i}^{⊤} k _{l} / d )}

这定义了查询 $i$ 对键 $j$ 的注意力分布，可解释为条件概率：

p (j ∣ i, context) = softmax (Q K^{⊤} / d)_{ij}

多头注意力的概率融合：

h_{i}^{(final)} = MLP (Concat (h_{i}^{(1)}, \dots, h_{i}^{(H)}))

其中每个头的输出是不同”视角”下的条件期望，多头机制实现了概率分布的混合。

位置编码的贝叶斯解释：绝对位置编码可视为对 token 位置的先验假设：

p (position = i) = Uniform (i) 或 p (i) \propto exp (- α ∣ i ∣)

相对位置编码则引入了相邻位置间的转移概率，符合马尔可夫假设。

import torch
import torch.nn as nn
import torch.nn.functional as F
 
class ProbabilisticAttention(nn.Module):
    """
    概率解释的注意力机制实现
    返回注意力分布和采样结果
    """
    def __init__(self, d_model, n_heads):
        super().__init__()
        self.d_k = d_model // n_heads
        self.n_heads = n_heads
        
        self.W_q = nn.Linear(d_model, d_model)
        self.W_k = nn.Linear(d_model, d_model)
        self.W_v = nn.Linear(d_model, d_model)
    
    def forward(self, query, key, value, sample_attention=False):
        """
        Args:
            query: (batch, seq_len, d_model)
            sample_attention: 是否返回采样（用于硬注意力）
        Returns:
            output: 注意力加权输出
            attn_weights: 注意力权重分布
        """
        B, T, C = query.size()
        
        # 线性变换
        Q = self.W_q(query).view(B, T, self.n_heads, self.d_k).transpose(1, 2)
        K = self.W_k(key).view(B, -1, self.n_heads, self.d_k).transpose(1, 2)
        V = self.W_v(value).view(B, -1, self.n_heads, self.d_k).transpose(1, 2)
        
        # 注意力分数
        scores = torch.matmul(Q, K.transpose(-2, -1)) / (self.d_k ** 0.5)
        attn_weights = F.softmax(scores, dim=-1)
        
        # 输出
        output = torch.matmul(attn_weights, V)
        output = output.transpose(1, 2).contiguous().view(B, T, C)
        
        # 计算注意力熵（不确定性度量）
        attn_entropy = -(attn_weights * torch.log(attn_weights + 1e-10)).sum(dim=-1)
        
        return output, attn_weights, attn_entropy

4. 生成模型与概率图

4.1 VAE 的图模型解释

变分自编码器（VAE）是概率图模型与深度学习融合的经典范例。其图模型结构清晰：

        ┌─────────────────────────────────────────────┐
        │                                             │
        │   z ──────────▶ x                           │
        │   │ (先验)    (似然/解码)                    │
        │   │                                          │
        │   │ 变分后验 q(z|x)                         │
        │   ◀──────────                               │
        │      (编码器)                                │
        │                                             │
        └─────────────────────────────────────────────┘

概率分解：

p_{θ} (x, z) = p_{θ} (x ∣ z) p (z)

变分下界（ELBO）：

L (θ, ϕ; x) = E_{q_{ϕ} (z ∣ x)} [lo g p_{θ} (x ∣ z)] - D_{KL} (q_{ϕ} (z ∣ x) ∥ p (z))

重参数化技巧使端到端训练成为可能：

z = μ_{ϕ} (x) + σ_{ϕ} (x) \cdot ϵ, ϵ \sim N (0, I)

4.2 Flow 模型的因果图

归一化流（Normalizing Flows）定义了一个可逆变换，其因果图结构为：

z_0 ──▶ z_1 ──▶ z_2 ──▶ ... ──▶ z_T ──▶ x
 (噪声) (变换) (变换)       (变换) (数据)

双射性质：每个变换 $f_{t}$ 必须可逆：

z_{t - 1} = f_{t}^{- 1} (z_{t}), x = f^{- 1} (z_{T})

对数密度计算：

lo g p_{θ} (x) = lo g p (z_{T}) + t = 1 \sum T lo g det \frac{\partial f _{t}}{\partial z _{t - 1}}

4.3 Diffusion 模型的概率流

扩散模型定义了前向加噪和反向去噪两个马尔可夫链。

前向过程（已知的噪声调度）：

q (x_{t} ∣ x_{t - 1}) = N (x_{t}; 1 - β_{t} x_{t - 1}, β_{t} I)

反向过程（学习的去噪）：

p_{θ} (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), Σ_{θ} (x_{t}, t))

ELBO 推导：边际似然可分解为：

lo g p (x_{0}) \geq E_{q} [lo g \frac{p _{θ} ( x _{T : T - 1} )}{q ( x _{1 : T} ∣ x _{0} )}]

简化的损失函数（预测噪声形式）：

L_{simple} = E_{t, x_{0}, ϵ} ∥ ϵ - ϵ_{θ} (x_{t}, t) ∥^{2}

4.4 生成模型与推断的关系

生成模型与推断（概率电路）存在深刻的数学联系：

生成模型	推断任务	关键技术
VAE	后验推断 $p (z ∣ x)$	变分推断
GAN	隐变量反演	对抗训练
Flow	精确密度计算	可逆变换
Diffusion	迭代去噪	得分匹配

统一视角：所有生成模型都在解决同一问题——如何在隐变量空间中进行有效的概率推断和采样。

5. 概率图模型在深度学习中的应用

5.1 神经消息传递

**神经消息传递（Neural Message Passing）**将传统概率图的消息传递与神经网络结合：

m_{ij}^{(l + 1)} = f_{θ}^{(l)} (m_{ij}^{(l)}, h_{i}^{(l)}, h_{j}^{(l)}, e_{ij})

h_{i}^{(l + 1)} = g_{θ}^{(l)} h_{i}^{(l)}, j \in N (i) \sum m_{ij}^{(l + 1)}

与置信度传播的关系：

消息函数 $f_{θ}$ 参数化了传统 BP 中的势函数
聚合函数 $g_{θ}$ 实现了信念更新
端到端训练取代了手动设计势函数

5.2 神经概率编程

**概率编程（Probabilistic Programming）**将随机程序引入深度学习框架。⁶

核心思想：将随机数生成器嵌入计算图，实现：

自动微分 + 蒙特卡洛采样 = 自动变分推断
程序推理：对随机程序的执行轨迹进行推断

import torch
import torch.distributions as dist
 
def bayesian_linear_regression(x, y, n_samples=1000):
    """
    贝叶斯线性回归示例：使用概率编程
    """
    # 参数先验
    w_prior = dist.Normal(0, 1)
    b_prior = dist.Normal(0, 1)
    sigma_prior = dist.HalfNormal(1)
    
    # 采样后验
    w_samples = w_prior.sample((n_samples, x.size(1)))
    b_samples = b_prior.sample((n_samples,))
    sigma_samples = sigma_prior.sample((n_samples,))
    
    # 似然计算
    mu = x @ w_samples.T + b_samples
    likelihood = dist.Normal(mu, sigma_samples.unsqueeze(1))
    
    # 对数似然
    log_lik = likelihood.log_prob(y)
    
    # 边际似然估计（ELBO）
    elbo = log_lik.mean(dim=0).sum()
    
    return w_samples, b_samples, sigma_samples, elbo

5.3 概率电路与神经网络

概率电路（Probabilistic Circuits, PC）是一类可计算边缘分布的图模型，与神经网络存在有趣的对应关系。

概率电路结构：

叶节点：输入分布（高斯、伯努利等）
和节点：边缘分布混合 $p (x) = \sum_{i} w_{i} p_{i} (x)$
积节点：条件独立假设 $p (x, y) = p (x) p (y ∣ x)$

与神经网络的对应：

概率电路	神经网络
和节点	加权平均/注意力
积节点	条件独立/分解
叶节点	激活函数
边权重	连接权重

学习目标：最大化数据边际似然 $lo g p (x) = lo g \sum_{s} \prod_{l} θ_{l}$

6. 概率图模型在深度学习中的高级应用

6.1 结构化不确定性建模

在实际应用中，数据往往具有结构化的特性，如时间序列的空间相关性、图数据的拓扑结构等。概率图模型为这种结构化不确定性提供了自然建模框架。

层次贝叶斯模型：

多层概率模型允许跨层次共享信息，同时保持层次特异性：

$p (θ, ϕ ∣ D) \propto p (D ∣ θ, ϕ) p (θ ∣ ϕ) p (ϕ)$

其中 $ϕ$ 是超参数， $θ$ 是模型参数。这种层次结构在层次贝叶斯模型中被广泛使用。

高斯过程与神经网络的结合：

高斯过程（GP）与神经网络的结合产生了多种有趣的模型：

模型	组合方式	优势
GP-LSTM	GP 替代 LSTM 的输出层	不确定性量化
NGP	神经网络的特征提取 + GP 核	表达力 + 不确定性
BNN-GP	BNN 参数化 + GP 先验	贝叶斯平均 + 结构化

6.2 因果发现与表示学习

因果推断（因果发现）与深度学习的融合催生了因果表示学习这一新兴领域。

因果图结构学习：

深度神经网络可以学习因果图的结构：

$p (G ∣ D) \propto p (D ∣ G) p (G)$

其中 $G$ 是图结构， $p (D ∣ G)$ 是给定因果结构的似然。

因果归因分析：

使用反事实推理框架进行模型归因：

$Y_{x \to x^{'}}^{*} = f (x^{'}) - f (x)$

这在解释深度学习模型决策中具有重要应用。

6.3 强化学习中的概率图

在强化学习（强化学习基础）中，概率图模型提供了不确定性感知决策的框架。

贝叶斯强化学习：

环境模型的不确定性被显式建模：

$p (r_{t + 1}, s_{t + 1} ∣ s_{t}, a_{t}, θ)$

基于模型的强化学习：

使用概率图模型学习转移动态：

$p_{ϕ} (s_{t + 1} ∣ s_{t}, a_{t}) = N (μ_{ϕ} (s_{t}, a_{t}), Σ_{ϕ} (s_{t}, a_{t}))$

import torch
import torch.nn as nn
 
class ProbabilisticDynamicsModel(nn.Module):
    """
    概率动态模型：预测下一步状态的均值和方差
    """
    def __init__(self, state_dim, action_dim, hidden_dim=256):
        super().__init__()
        
        # 共享特征提取
        self.feature_net = nn.Sequential(
            nn.Linear(state_dim + action_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.ReLU(),
        )
        
        # 均值预测头
        self.mean_head = nn.Linear(hidden_dim, state_dim)
        
        # 对数方差预测头
        self.log_var_head = nn.Linear(hidden_dim, state_dim)
    
    def forward(self, state, action):
        """
        Args:
            state: (batch_size, state_dim)
            action: (batch_size, action_dim)
        Returns:
            mean: 下一状态的均值
            log_var: 对数方差（用于不确定性）
        """
        x = torch.cat([state, action], dim=-1)
        features = self.feature_net(x)
        
        mean = self.mean_head(features)
        log_var = torch.clamp(self.log_var_head(features), -5, 2)  # 数值稳定性
        
        return mean, log_var
    
    def sample(self, state, action, n_samples=1):
        """从预测分布中采样"""
        mean, log_var = self.forward(state, action)
        std = torch.exp(0.5 * log_var)
        
        # 重参数化采样
        epsilon = torch.randn_like(mean).unsqueeze(0).expand(n_samples, -1, -1)
        samples = mean.unsqueeze(0) + std.unsqueeze(0) * epsilon
        
        return samples  # (n_samples, batch_size, state_dim)

7. 理论与实践的统一框架

7.1 能量模型与概率的桥梁

能量基模型（Energy-Based Models, EBM）提供了连接神经网络与概率图模型的桥梁。

能量函数定义：

$E_{θ} (x) : R^{d} \to R$

玻尔兹曼分布：

$p_{θ} (x) = \frac{e x p ( - E _{θ} ( x ))}{Z ( θ )}, Z (θ) = \int exp (- E_{θ} (x)) d x$

与神经网络的关系：

Softmax 层：能量函数取负 logits
GAN 的判别器：隐式定义数据流形的能量
去噪得分匹配：学习能量函数的梯度

7.2 信息瓶颈理论

信息瓶颈（Information Bottleneck, IB）理论为理解深度学习提供了信息论视角。

IB 优化目标：

$min_{p (t ∣ x)} I (X; T) - β I (T; Y)$

其中 $T$ 是隐表示， $β$ 是权衡参数。

与变分推断的联系：

IB 目标可以重新解释为变分推断中的 ELBO：

$L_{I B} = - E_{p (x, y)} [lo g p (y ∣ t)] + β \cdot D_{KL} (p (t ∣ x) ∣∣ r (t))$

7.3 PAC-贝叶斯理论

PAC-贝叶斯理论连接了贝叶斯学习和 PAC 学习框架。

PAC-贝叶斯边界：

$P (\exists q : R (q) \leq \hat{R} (q) + \frac{D _{KL} ( q ∣∣ p ) + l n ( m / δ )}{2 m}) \geq 1 - δ$

这为深度学习泛化提供了理论保证。

8. 实践指南

8.1 贝叶斯深度学习工具链

实现贝叶斯深度学习模型的实用建议：

1. 先验选择：

任务类型	推荐先验	特点
稀疏学习	Spike-and-Slab	二值混合，诱导稀疏
层级模型	Horseshoe	层次结构，自动相关性确定
函数近似	Gaussian Process	函数空间先验
鲁棒学习	Student-t	重尾，处理异常值

2. 近似推断方法：

import torch
import torch.nn as nn
from torch.distributions import Normal, Laplace
 
class BayesianLinearLayer(nn.Module):
    """
    贝叶斯线性层：参数化为均值和方差
    使用 Local Reparameterization Trick 进行高效采样
    """
    def __init__(self, in_features, out_features, prior_mean=0.0, prior_std=1.0):
        super().__init__()
        
        # 参数均值
        self.weight_mu = nn.Parameter(torch.randn(out_features, in_features) * 0.1)
        self.bias_mu = nn.Parameter(torch.zeros(out_features))
        
        # 参数方差（对数尺度）
        self.weight_log_var = nn.Parameter(torch.zeros(out_features, in_features))
        self.bias_log_var = nn.Parameter(torch.zeros(out_features))
        
        # 先验参数
        self.prior_mean = prior_mean
        self.prior_std = prior_std
    
    def forward(self, x, sample=True):
        """
        Args:
            x: 输入张量
            sample: 是否对权重采样（训练时 True，推理时 False）
        Returns:
            output: 输出张量
            kl: KL 散度损失项
        """
        if sample and self.training:
            # Local Reparameterization: 对输出采样而非权重
            weight_mean = x @ self.weight_mu.T  # (batch, out_features)
            weight_var = x.pow(2) @ self.weight_log_var.exp().T  # (batch, out_features)
            
            bias_mean = self.bias_mu
            bias_var = self.bias_log_var.exp()
            
            # 从输出分布采样
            output_std = (weight_var + bias_var).sqrt()
            output = weight_mean + bias_mean + output_std * torch.randn_like(weight_mean)
            
            # KL 损失（使用 Local Reparameterization 的近似）
            kl = self._compute_kl_local(x)
        else:
            # 点估计
            output = x @ self.weight_mu.T + self.bias_mu
            kl = self._compute_kl_point()
        
        return output, kl
    
    def _compute_kl_local(self, x):
        """Local Reparameterization 下的 KL 估计"""
        # 使用单样本蒙特卡洛估计
        # 实际实现中会批量计算
        batch_size = x.size(0)
        
        # 权重后验 vs 先验的 KL
        w_post_std = self.weight_log_var.exp().sqrt()
        w_kl = (w_post_std.log() - self.prior_std.log()).sum()
        w_kl += (self.prior_std.pow(2) + (self.weight_mu - self.prior_mean).pow(2)) / (2 * w_post_std.pow(2))
        w_kl -= 0.5
        
        # 偏置的 KL
        b_post_std = self.bias_log_var.exp().sqrt()
        b_kl = (b_post_std.log() - self.prior_std.log()).sum()
        b_kl += (self.prior_std.pow(2) + self.bias_mu.pow(2)) / (2 * b_post_std.pow(2))
        b_kl -= 0.5
        
        return (w_kl + b_kl) / batch_size
    
    def _compute_kl_point(self):
        """点估计模式下的 KL（用于测试）"""
        return torch.tensor(0.0)

3. 训练策略：

证据下界（ELBO）优化： $L = L_{recon} - β \cdot L_{KL}$
KL annealing：在训练初期降低 KL 权重，避免后验坍缩
自由Bits：限制每个神经元的最小 KL 贡献

8.2 不确定性量化实战

class UncertaintyAwarePredictor:
    """
    不确定性感知预测器：结合 aleatoric 和 epistemic 不确定性
    """
    def __init__(self, model, n_mc_samples=30):
        self.model = model
        self.n_mc_samples = n_mc_samples
    
    def predict_with_uncertainty(self, x):
        """
        计算预测均值和总不确定性
        
        总不确定性 = aleatoric（数据固有） + epistemic（模型）
        """
        self.model.eval()
        
        mc_predictions = []
        for _ in range(self.n_mc_samples):
            with torch.no_grad():
                output = self.model(x)
                mc_predictions.append(output)
        
        mc_predictions = torch.stack(mc_predictions)  # (n_samples, batch, ...)
        
        # Epistemic 不确定性：预测的方差
        epistemic_var = mc_predictions.var(dim=0)
        
        # Aleatoric 不确定性：从模型输出获得
        # 假设模型输出 (mean, log_var) 或 (mean, logits)
        if isinstance(mc_predictions, tuple):
            mean_pred = mc_predictions[0].mean(dim=0)
            # 从多个样本估计 aleatoric 不确定性
            aleatoric_var = mc_predictions[0].var(dim=0)
        else:
            mean_pred = mc_predictions.mean(dim=0)
            aleatoric_var = torch.zeros_like(mean_pred)
        
        # 总不确定性
        total_uncertainty = epistemic_var + aleatoric_var
        
        return {
            'mean': mean_pred,
            'total_uncertainty': total_uncertainty,
            'epistemic': epistemic_var,
            'aleatoric': aleatoric_var,
            'confidence_interval_95': {
                'lower': mean_pred - 1.96 * total_uncertainty.sqrt(),
                'upper': mean_pred + 1.96 * total_uncertainty.sqrt()
            }
        }

9. 总结与展望

概率图模型与深度学习的融合揭示了神经网络工作的概率本质，为理解、改进和扩展现代深度学习方法提供了坚实的理论基础。

核心洞见

神经网络是概率模型：从 softmax 输出到注意力机制，都可以用概率语言精确描述
不确定性量化是核心：贝叶斯深度学习为模型不确定性和数据不确定性提供了统一框架
消息传递是统一范式：GNN、RNN、Transformer 都可视为不同形式的置信度传播
生成模型连接推断与学习：VAE、Flow、Diffusion 展示了如何将推断问题嵌入学习框架
能量模型是桥梁：EBM 统一了判别式和生成式方法

未来方向

方向	关键问题	潜在突破
可扩展贝叶斯推断	如何在大规模模型中高效近似后验	随机变分推断、分布式采样
因果深度学习	如何从观测数据中发现因果结构	因果表示学习、结构发现
不确定性感知决策	如何在安全关键场景中量化风险	主动学习、贝叶斯优化
神经符号集成	如何结合神经网络与符号推理	概率逻辑编程、可微分推理
理论统一	如何建立深度学习概率理论	PAC-贝叶斯、统计力学

研究前沿

无限宽度极限与贝叶斯：神经网络的 NTK 理论揭示了宽网络与 Gaussian Process 的联系
扩散模型的推断效率：如何减少采样步骤、加速生成
可信 AI：不确定性量化在公平性、鲁棒性中的应用
概率电路的可学习性：如何端到端训练概率电路

概率图模型与深度学习的融合仍在快速发展中，这两个领域的交叉为构建更强大、更可靠的人工智能系统提供了广阔的空间。

参考

Blei, D. M., Kucukelbir, A., & McAuliffe, J. D. (2017). Variational inference: A review for statisticians. Journal of the American Statistical Association. ↩
Gal, Y., & Ghahramani, Z. (2016). Dropout as a Bayesian approximation: Representing model uncertainty in deep learning. ICML. ↩
Zhang, J., et al. (2024). GNN as probabilistic inference: A unified framework for graph neural networks. NeurIPS. ↩
Krishnan, R. G., Sontag, D., & Pitassi, T. (2017). Learning safe prediction models with causal inference. NeurIPS Workshop. ↩
Wang, C., et al. (2024). Transformers as Markov chains: Probabilistic analysis of attention mechanisms. ICML. ↩
Goodman, N. D., & Stuhlmüller, A. (2014). The Design and Implementation of Probabilistic Programming Languages. probmods.org. ↩

Metaphor

探索

概率图模型与深度学习融合

概率图模型与深度学习融合

1. 概率图视角看神经网络

1.1 神经网络作为概率模型

1.2 Softmax 与归一化的概率解释

1.3 注意力作为概率推断

1.4 Dropout 的贝叶斯解释

2. 图神经网络与概率图

2.1 GNN 作为概率推断

2.2 信念传播在 GNN 中的应用

2.3 变分推断与 GNN

2.4 与谱图理论的联系

3. 序列模型与概率图

3.1 RNN 作为动态贝叶斯网络

3.2 LSTM/GRU 的门控机制

3.3 Transformer 的概率解释

4. 生成模型与概率图

4.1 VAE 的图模型解释

4.2 Flow 模型的因果图

4.3 Diffusion 模型的概率流

4.4 生成模型与推断的关系

5. 概率图模型在深度学习中的应用

5.1 神经消息传递

5.2 神经概率编程

5.3 概率电路与神经网络

6. 概率图模型在深度学习中的高级应用

6.1 结构化不确定性建模

6.2 因果发现与表示学习

6.3 强化学习中的概率图

7. 理论与实践的统一框架

7.1 能量模型与概率的桥梁

7.2 信息瓶颈理论

7.3 PAC-贝叶斯理论

8. 实践指南

8.1 贝叶斯深度学习工具链

8.2 不确定性量化实战

9. 总结与展望

核心洞见

未来方向

研究前沿

参考

Footnotes

关系图谱

目录