信息几何基础

概述

信息几何（Information Geometry）是将微分几何应用于概率分布空间的一门学科。它研究概率分布形成的流形的几何结构，为统计推断、机器学习和优化提供了统一而深刻的视角。¹

核心思想：概率分布构成的空间具有自然的黎曼几何结构，其由Fisher信息矩阵给出。

概率分布作为流形

统计流形的定义

设有一族概率分布 ${p (x; θ) : θ \in Θ \subset R^{d}}$ ，其中 $θ$ 是参数向量。参数空间 $Θ$ 可以被看作一个 $d$ 维流形。

每个分布 $p (x; θ)$ 是流形上的一个”点”，而参数 $θ$ 是该点的（局部）坐标。

示例：单参数分布族

        p(x)
         │
    1.0  │      ╭─────── p(x;θ₁)
         │     ╱
         │    ╱     ╭─── p(x;θ₀)
         │   ╱     ╱
         │  ╱    ╱
         │ ╱   ╱
         │╱  ╱
         ───────────── x
         
         参数θ定义了分布空间中的路径

流形的局部结构

在点 $θ$ 附近，分布的变化可以通过分数函数（score function）描述：

ℓ_{θ} (x) = \nabla_{θ} lo g p (x; θ)

分数函数的协方差定义了Fisher信息：

E_{x} [ℓ_{θ} (x) ℓ_{θ} (x)^{T}] = Fisher (θ)

Fisher信息矩阵

定义

设 $p (x; θ)$ 是参数分布族， $θ \in Θ \subset R^{d}$ 。Fisher信息矩阵（FIM）定义为：

[F] (θ)_{ij} = E_{x} [\frac{\partial lo g p}{\partial θ _{i}} \cdot \frac{\partial lo g p}{\partial θ _{j}}] = - E_{x} [\frac{\partial ^{2} lo g p}{\partial θ _{i} \partial θ _{j}}]

其中期望是对 $p (x; θ)$ 取的。

直观理解

Fisher信息度量了分布对参数变化的”敏感度”：

信息量大 $\Rightarrow$ 分布随参数变化剧烈 $\Rightarrow$ 更容易估计该参数
信息量小 $\Rightarrow$ 分布变化平缓 $\Rightarrow$ 参数估计困难

一维情形

对于单参数 $θ$ ：

I (θ) = E [(\frac{\partial lo g p}{\partial θ})^{2}]

这正是分数函数的方差。

计算示例：高斯分布

设 $X \sim N (μ, σ^{2})$ ，参数 $θ = (μ, σ)$ ：

对数似然：

lo g p (x; μ, σ) = - \frac{( x - μ ) ^{2}}{2 σ ^{2}} - \frac{1}{2} lo g (2 π σ^{2})

Fisher信息矩阵：

F = (\frac{1}{σ ^{2}} 0 0 \frac{2}{σ ^{2}})

Fisher信息的性质

性质	公式	说明
对称性	$F_{ij} = F_{ji}$	Hessian是对称矩阵
正定性	$F ≻ 0$	信息矩阵总是正定
参数变换	$F_{ϕ} = J^{T} F_{θ} J$	Jacobi矩阵变换
Cramér-Rao下界	$Var (\hat{θ}) \geq F^{- 1}$	最优估计的方差下界

黎曼度量

Fisher度量

Fisher信息矩阵定义了一个黎曼度量（Riemannian Metric），称为Fisher度量或Fisher-Rao度量：

g_{ij} (θ) = [F] (θ)_{ij}

在参数流形上，两个切向量的内积为：

⟨ u, v ⟩_{θ} = u^{T} F (θ) v

黎曼距离

两点 $θ_{1}, θ_{2}$ 之间的Fisher距离定义为沿最短路径（测地线）的积分：

d (θ_{1}, θ_{2}) = γ in f \int_{0}^{1} γ (t)^{T} F (γ (t)) γ (t) d t

其中 $γ (0) = θ_{1}, γ (1) = θ_{2}$ 。

KL散度作为对比

KL散度与Fisher距离有密切关系：

D_{K L} (p_{θ} ∥ p_{θ + d θ}) \approx \frac{1}{2} d θ^{T} F (θ) d θ

在无穷小邻域内，KL散度与Fisher距离平方成正比。

α-联络（α-Connections）

定义

信息几何中最重要的概念之一是α-联络族，它参数化了不同的几何结构：

Γ_{ij}^{(k) (α)} = {E_{ij}^{(k)} - \frac{1 - α}{2} (E_{ij}^{(k)} + E_{ji}^{(k)}) \frac{\partial}{\partial θ _{i}} lo g h^{(k)} (θ) α \neq = 0 α = 0

其中 $E_{ij}^{(k)}$ 是指数联络系数， $h^{(k)}$ 是熵函数。

特殊情形

$α$ 值	联络名称	曲率性质
$α = 1$	指数联络（ $e$ -联络）	零曲率（平坦）
$α = - 1$	混合联络（ $m$ -联络）	零曲率（平坦）
$α = 0$	Fisher-Chentsov联络	一般非平坦

$e$ -平坦与 $m$ -平坦

$e$ -平坦：指数族分布是 $e$ -平坦的
$m$ -平坦：均值参数化下是 $m$ -平坦的

平行移动

在黎曼流形中，平行移动（Parallel Transport）沿着测地线移动切向量而不改变其与联络的相对关系。

信息几何中的平行移动具有特殊性质：

沿 $e$ -平坦子流形的平行移动恰好是条件期望
这为最优传输和变分推断提供了几何解释

指数族分布的几何结构

指数族的定义

指数族分布具有形式：

p (x; θ) = exp (θ^{T} T (x) - A (θ)) h (x)

其中：

$θ$ ：自然参数
$T (x)$ ：充分统计量
$A (θ)$ ：对数配分函数（确保归一化）
$h (x)$ ：底层测度

指数族的例子

分布	参数形式	充分统计量
伯努利	$lo g \frac{p}{1 - p}$	$(x, 1)$
正态（已知方差）	$μ / σ^{2}$	$(x, x^{2})$
泊松	$lo g λ$	$x$
指数	$- 1/ λ$	$x$
Gamma	$(α - 1, - β)$	$(lo g x, x)$

指数族的几何性质

指数族 ${p (x; θ)}$ 是统计流形的一个极其重要的子流形：

$e$ -平坦：自然参数空间 $Θ$ 是 $e$ -平坦的
对偶平坦：存在对偶坐标系（自然参数 $θ$ 和期望参数 $η$ ）

期望参数

期望参数定义为：

η = E [T (X)] = \nabla_{θ} A (θ)

$(θ, η)$ 形成对偶坐标系，满足：

⟨ \partial_{i}, \partial_{j} ⟩ = g_{ij} (θ) = \frac{\partial η _{j}}{\partial θ _{i}}

Bregman散度

定义

Bregman散度是信息几何中最重要的概念之一：

设 $F : Θ \to R$ 是严格凸的可微函数（称为Bregman函数），则：

D_{F} (θ_{1} ∥ θ_{2}) = F (θ_{1}) - F (θ_{2}) - ⟨ \nabla F (θ_{2}), θ_{1} - θ_{2} ⟩

几何直观

    F(θ)
     │
     │           ╱  F(θ₁)
     │          ╱  ╱
     │         ╱  ╱    ← 切线近似
     │        ╱  ╱
     │       ╱  ╱
     │      ╱──╱──── F(θ₂) + ⟨∇F(θ₂), θ₁-θ₂⟩
     │     ╱  ╱
     │    ╱  ╱
     │   ╱──╱──────── Bregman散度
     │  θ₂ θ₁
     └────────────────────── θ

Bregman散度是”真实函数值”与”切平面近似值”之间的差距。

与指数族的联系

选择 $F (θ) = A (θ)$ （对数配分函数）得到反向KL散度
选择 $F (θ) = A^{⋆} (η)$ （Legendre变换）得到前向KL散度
$F$ -散度类包含了KL散度、β-散度、γ-散度等

Bregman投影

在约束集合上的Bregman投影：

\hat{θ} = ar g θ \in C min D_{F} (θ ∥ θ_{0})

这正是EM算法中M步的几何解释。

自然梯度与信息几何优化

普通梯度的问题

在参数空间使用欧几里得度量，普通梯度下降：

θ_{t + 1} = θ_{t} - α \nabla_{θ} ℓ (θ_{t})

然而，当Fisher信息矩阵变化剧烈时，这个方向可能不是最”有效”的。

自然梯度定义

自然梯度（Natural Gradient）使用Fisher度量：

\tilde{\nabla} ℓ (θ) = F (θ)^{- 1} \nabla_{θ} ℓ (θ)

更新变为：

θ_{t + 1} = θ_{t} - α F (θ_{t})^{- 1} \nabla_{θ} ℓ (θ_{t})

自然梯度的优点

方面	普通梯度	自然梯度
度量	欧几里得	Fisher-Rao
缩放	与参数化相关	无关（协变）
收敛速度	依赖条件数	更稳定
几何解释	最速下降方向	KL散度下最速下降

与KL散度的联系

自然梯度方向恰好是KL散度 $D_{K L} (p_{θ_{t}} ∥ p_{θ})$ 下的最速下降方向：

θ_{t + 1} = ar g θ min D_{K L} (p_{θ_{t}} ∥ p_{θ}) + \frac{1}{α} ℓ (θ)

这将优化与信息几何统一起来。

变分推断的几何视角

变分推断的核心

变分推断（VI）用简单的分布 $q (Z)$ 近似后验 $p (Z ∣ X)$ ：

q^{⋆} (Z) = ar g q min D_{K L} (q (Z) ∥ p (Z ∣ X))

信息几何解释

         后验 p(Z|X)
            ╱ ╲
           ╱   ╲
          ╱     ╲
         ╱   ✦  ╲  ← 最优近似 q*(Z)
        ╱       ╲
       ╱─────────── 指数族分布族
       
       ✦ = 在指数族流形上的投影

$p (Z ∣ X)$ 是统计流形上的点
变分族（指数族）是流形上的子流形
VI = 在子流形上的黎曼投影

坐标下降与混合联络

M步： $e$ -联络下的投影
E步： $m$ -联络下的投影

这解释了EM算法为什么能工作——交替在不同联络下的投影。

Amortized变分推断

摊销近似

标准VI中每个数据点需要优化变分参数。摊销推断（Amortized Inference）使用神经网络学习从数据到变分参数的映射：

q (Z ∣ X) = N (μ_{ϕ} (X), σ_{ϕ}^{2} (X))

其中 $ϕ$ 是神经网络参数。

重参数化技巧

信息几何视角下的重参数化：

先在”干净”空间（欧几里得）采样
通过确定性变换映射到目标分布空间
变换的Jacobian正好补偿了度量变化

信息几何在深度学习中的应用

1. 损失景观的几何分析

神经网络的损失函数在参数空间中形成复杂的黎曼流形，Fisher信息矩阵（经验Hessian）刻画了局部几何。

2. 最优传输与信息几何

Wasserstein梯度流是信息几何中 Wasserstein 空间上的自然演化：

\frac{\partial ρ _{t}}{\partial t} = - \nabla \cdot (ρ_{t} \nabla F (ρ_{t}))

其中 $F$ 是自由能泛函。这为扩散模型的训练动态提供了几何解释。

3. 归一化流的微分同胚

归一化流（Normalizing Flow）通过可逆变换 $f : R^{d} \to R^{d}$ 改变概率分布：

lo g p_{Y} (y) = lo g p_{Z} (f^{- 1} (y)) + lo g det \frac{\partial f ^{- 1}}{\partial y}

Jacobian行列式恰好是流形的体积元变换因子。

信息几何中的曲率与统计推断

曲率张量

曲率张量 $R_{ijk l}$ 描述了流形的弯曲程度：

R_{ijk l} = ⟨ R (e_{i}, e_{j}) e_{k}, e_{l} ⟩

其中 $R$ 是黎曼曲率张量。

曲率的统计意义

零曲率（平坦）：统计曲率处处为零，所有联络都退化
正曲率：统计推断困难（高曲率 = 高信息变化率）
负曲率：类噪声结构

Cramér-Rao下界的几何解释

Cramér-Rao下界：

Cov (\hat{θ}) ⪰ [F (θ)]^{- 1}

几何上， $F (θ)^{- 1}$ 正好是黎曼流形上切空间的度规逆，给出了方差的下界。

总结

概念	核心要点
Fisher信息矩阵	概率分布流形上的黎曼度量
α-联络	统计流形上不同的联络结构
指数族	对偶平坦的重要分布类
Bregman散度	源于Legendre变换的散度族
自然梯度	Fisher度量下的最速下降方向

信息几何提供了理解概率分布空间和统计推断的深刻框架。它将微分几何与信息论/统计学统一起来，为变分推断、变分自编码器、自然梯度优化等领域提供了坚实的理论基础。

参考

Amari, S. (2016). Information Geometry and Its Applications. Springer. ↩

Metaphor

探索