归一化流与变分推断

概述

归一化流（Normalizing Flows）是一种通过可逆变换构造复杂概率分布的方法。¹ 其核心思想是将简单的基础分布（如高斯分布）通过一系列可逆映射变换为复杂的目标分布。

在变分推断的框架下，归一化流提供了更灵活的后验近似族，使得我们可以用更复杂的分布来逼近真实后验，从而提高变分推断的精度。

变量变换公式

定理

设 $z \in R^{d}$ 服从分布 $p (z)$ ， $f : R^{d} \to R^{d}$ 是双射（可逆且光滑），令 $x = f (z)$ ，则：

p_{X} (x) = p_{Z} (f^{- 1} (x)) \cdot det \frac{\partial f ^{- 1}}{\partial x}

或等价地：

lo g p_{X} (x) = lo g p_{Z} (z) + lo g det \frac{\partial f ^{- 1}}{\partial x}, z = f^{- 1} (x)

对数行列式的性质

lo g det \frac{\partial f ^{- 1}}{\partial x} = - lo g det \frac{\partial f}{\partial z}

因此，我们更常用：

lo g p_{X} (x) = lo g p_{Z} (f^{- 1} (x)) - lo g det \frac{\partial f}{\partial z}

雅可比行列式计算的核心挑战

计算 $det (\partial f / \partial z)$ 的复杂度为 $O (d^{3})$ ，其中 $d$ 是维度。因此，设计高效的归一化流需要精心设计变换，使雅可比行列式易于计算。

归一化流的基本构建块

1. 仿射变换（Affine Transformation）

最简单的变换形式：

f (z) = a + b ⊙ z

其中 $a$ 是平移向量， $b$ 是缩放向量。

特点：

雅可比行列式： $\prod_{d} b_{d}$
计算复杂度： $O (d)$
表达能力有限

2. 逐通道仿射耦合（Affine Coupling）

由Dinh et al. (2015)在Real NVP中提出。²

结构：

x_{1 : d} x_{d + 1 : D} = z_{1 : d} = z_{d + 1 : D} ⊙ exp (s (z_{1 : d})) + t (z_{1 : d})

其中 $s (\cdot)$ 和 $t (\cdot)$ 是任意神经网络。

雅可比行列式：

det \frac{\partial f}{\partial z} = i = d + 1 \prod D exp (s_{i} (z_{1 : d})) = exp (i = d + 1 \sum D s_{i} (z_{1 : d}))

计算复杂度： $O (1)$ （对角矩阵）

3. 置换层（Permutation）

通过固定置换操作来混合变量：

class Permutation(nn.Module):
    def __init__(self, dim, permutation=None):
        super().__init__()
        if permutation is None:
            self.permutation = torch.randperm(dim)
        else:
            self.permutation = permutation
    
    def forward(self, z):
        return z[:, self.permutation]
    
    def inverse(self, x):
        inv_permutation = torch.argsort(self.permutation)
        return x[:, inv_permutation]

4. 激活归一化（ActNorm）

通过数据依赖的初始化实现高效训练：

x = z ⊙ w + b

其中 $w, b$ 通过数据批量初始化，使输出分布均值为0、方差为1。

主流归一化流架构

Real NVP (Real-valued Non-Volume Preserving)

由Dinh et al. (2015)提出，是首个成功的深度归一化流。²

架构：

class RealNVP(nn.Module):
    def __init__(self, dim, hidden_dim=512):
        super().__init__()
        self.mask = self._create_mask(dim)
        # 两层网络用于s和t
        self.scale_net = nn.Sequential(
            nn.Linear(dim // 2, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, dim // 2)
        )
        self.translate_net = nn.Sequential(
            nn.Linear(dim // 2, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, dim // 2)
        )
    
    def _create_mask(self, dim):
        mask = torch.zeros(dim)
        mask[:dim // 2] = 1
        return mask
    
    def forward(self, z):
        # 分割输入
        z1 = z * self.mask
        z2 = z * (1 - self.mask)
        # 计算仿射参数
        s = self.scale_net(z1)
        t = self.translate_net(z1)
        # 应用变换
        x2 = z2 * torch.exp(s) + t
        # 合并
        x = self.mask * x + (1 - self.mask) * x2
        # 返回雅可比行列式
        log_det = torch.sum(s * (1 - self.mask))
        return x, log_det

特点：

可并行计算
易于存储和反转
需要多层堆叠以增加表达能力

Glow (Generative Flow with Invertible 1x1 Convolutions)

由Kingma & Dhariwal (2018)提出，改进了Real NVP。³

关键创新：可逆的1x1卷积

class Invertible1x1Conv(nn.Module):
    def __init__(self, dim):
        super().__init__()
        # 初始化为随机正交矩阵
        self.W = nn.Parameter(torch.linalg.qr(torch.randn(dim, dim))[0])
    
    def forward(self, z):
        log_det = torch.logdet(self.W) * z.shape[1]  # 批次维度
        return torch.einsum('bij,jk->bik', z, self.W), log_det
    
    def inverse(self, x):
        W_inv = torch.inverse(self.W)
        return torch.einsum('bij,jk->bik', x, W_inv)

Masked Autoregressive Flow (MAF)

基于自回归模型构建归一化流。⁴

变换：

x_{i} = z_{i} \cdot exp (s_{i} (z_{1 : i - 1})) + t_{i} (z_{1 : i - 1})

特点：

雅可比为三角矩阵，对角元素为 $exp (s_{i} (z_{1 : i - 1}))$
采样容易（逐样本生成）
密度估计需要顺序计算（慢）

Neural Spline Flows (NSF)

使用分段线性/三次样条作为非线性变换。⁵

B-样条变换：

f (x) = k = 0 \sum K w_{k} B_{k} (x)

其中 $B_{k}$ 是B-样条基函数。

优势：

表达能力更强
可以精确逆变换（通过查表）
在密度估计任务上效果优异