概述
信息几何(Information Geometry)是将微分几何应用于概率分布空间的一门学科。它研究概率分布形成的流形的几何结构,为统计推断、机器学习和优化提供了统一而深刻的视角。1
核心思想:概率分布构成的空间具有自然的黎曼几何结构,其由Fisher信息矩阵给出。
概率分布作为流形
统计流形的定义
设有一族概率分布 ,其中 是参数向量。参数空间 可以被看作一个 维流形。
每个分布 是流形上的一个”点”,而参数 是该点的(局部)坐标。
示例:单参数分布族
p(x)
│
1.0 │ ╭─────── p(x;θ₁)
│ ╱
│ ╱ ╭─── p(x;θ₀)
│ ╱ ╱
│ ╱ ╱
│ ╱ ╱
│╱ ╱
───────────── x
参数θ定义了分布空间中的路径
流形的局部结构
在点 附近,分布的变化可以通过分数函数(score function)描述:
分数函数的协方差定义了Fisher信息:
Fisher信息矩阵
定义
设 是参数分布族,。Fisher信息矩阵(FIM)定义为:
其中期望是对 取的。
直观理解
Fisher信息度量了分布对参数变化的”敏感度”:
- 信息量大 分布随参数变化剧烈 更容易估计该参数
- 信息量小 分布变化平缓 参数估计困难
一维情形
对于单参数 :
这正是分数函数的方差。
计算示例:高斯分布
设 ,参数 :
对数似然:
Fisher信息矩阵:
Fisher信息的性质
| 性质 | 公式 | 说明 |
|---|---|---|
| 对称性 | Hessian是对称矩阵 | |
| 正定性 | 信息矩阵总是正定 | |
| 参数变换 | Jacobi矩阵变换 | |
| Cramér-Rao下界 | 最优估计的方差下界 |
黎曼度量
Fisher度量
Fisher信息矩阵定义了一个黎曼度量(Riemannian Metric),称为Fisher度量或Fisher-Rao度量:
在参数流形上,两个切向量的内积为:
黎曼距离
两点 之间的Fisher距离定义为沿最短路径(测地线)的积分:
其中 。
KL散度作为对比
KL散度与Fisher距离有密切关系:
在无穷小邻域内,KL散度与Fisher距离平方成正比。
α-联络(α-Connections)
定义
信息几何中最重要的概念之一是α-联络族,它参数化了不同的几何结构:
其中 是指数联络系数, 是熵函数。
特殊情形
| 值 | 联络名称 | 曲率性质 |
|---|---|---|
| 指数联络(-联络) | 零曲率(平坦) | |
| 混合联络(-联络) | 零曲率(平坦) | |
| Fisher-Chentsov联络 | 一般非平坦 |
-平坦与 -平坦
- -平坦:指数族分布是 -平坦的
- -平坦:均值参数化下是 -平坦的
平行移动
在黎曼流形中,平行移动(Parallel Transport)沿着测地线移动切向量而不改变其与联络的相对关系。
信息几何中的平行移动具有特殊性质:
- 沿 -平坦子流形的平行移动恰好是条件期望
- 这为最优传输和变分推断提供了几何解释
指数族分布的几何结构
指数族的定义
指数族分布具有形式:
其中:
- :自然参数
- :充分统计量
- :对数配分函数(确保归一化)
- :底层测度
指数族的例子
| 分布 | 参数形式 | 充分统计量 |
|---|---|---|
| 伯努利 | ||
| 正态(已知方差) | ||
| 泊松 | ||
| 指数 | ||
| Gamma |
指数族的几何性质
指数族 是统计流形的一个极其重要的子流形:
- -平坦:自然参数空间 是 -平坦的
- 对偶平坦:存在对偶坐标系(自然参数 和期望参数 )
期望参数
期望参数定义为:
形成对偶坐标系,满足:
Bregman散度
定义
Bregman散度是信息几何中最重要的概念之一:
设 是严格凸的可微函数(称为Bregman函数),则:
几何直观
F(θ)
│
│ ╱ F(θ₁)
│ ╱ ╱
│ ╱ ╱ ← 切线近似
│ ╱ ╱
│ ╱ ╱
│ ╱──╱──── F(θ₂) + ⟨∇F(θ₂), θ₁-θ₂⟩
│ ╱ ╱
│ ╱ ╱
│ ╱──╱──────── Bregman散度
│ θ₂ θ₁
└────────────────────── θ
Bregman散度是”真实函数值”与”切平面近似值”之间的差距。
与指数族的联系
- 选择 (对数配分函数)得到反向KL散度
- 选择 (Legendre变换)得到前向KL散度
- -散度类包含了KL散度、β-散度、γ-散度等
Bregman投影
在约束集合上的Bregman投影:
这正是EM算法中M步的几何解释。
自然梯度与信息几何优化
普通梯度的问题
在参数空间使用欧几里得度量,普通梯度下降:
然而,当Fisher信息矩阵变化剧烈时,这个方向可能不是最”有效”的。
自然梯度定义
自然梯度(Natural Gradient)使用Fisher度量:
更新变为:
自然梯度的优点
| 方面 | 普通梯度 | 自然梯度 |
|---|---|---|
| 度量 | 欧几里得 | Fisher-Rao |
| 缩放 | 与参数化相关 | 无关(协变) |
| 收敛速度 | 依赖条件数 | 更稳定 |
| 几何解释 | 最速下降方向 | KL散度下最速下降 |
与KL散度的联系
自然梯度方向恰好是KL散度 下的最速下降方向:
这将优化与信息几何统一起来。
变分推断的几何视角
变分推断的核心
变分推断(VI)用简单的分布 近似后验 :
信息几何解释
后验 p(Z|X)
╱ ╲
╱ ╲
╱ ╲
╱ ✦ ╲ ← 最优近似 q*(Z)
╱ ╲
╱─────────── 指数族分布族
✦ = 在指数族流形上的投影
- 是统计流形上的点
- 变分族(指数族)是流形上的子流形
- VI = 在子流形上的黎曼投影
坐标下降与混合联络
- M步:-联络下的投影
- E步:-联络下的投影
这解释了EM算法为什么能工作——交替在不同联络下的投影。
Amortized变分推断
摊销近似
标准VI中每个数据点需要优化变分参数。摊销推断(Amortized Inference)使用神经网络学习从数据到变分参数的映射:
其中 是神经网络参数。
重参数化技巧
信息几何视角下的重参数化:
- 先在”干净”空间(欧几里得)采样
- 通过确定性变换映射到目标分布空间
- 变换的Jacobian正好补偿了度量变化
信息几何在深度学习中的应用
1. 损失景观的几何分析
神经网络的损失函数在参数空间中形成复杂的黎曼流形,Fisher信息矩阵(经验Hessian)刻画了局部几何。
2. 最优传输与信息几何
Wasserstein梯度流是信息几何中 Wasserstein 空间上的自然演化:
其中 是自由能泛函。这为扩散模型的训练动态提供了几何解释。
3. 归一化流的微分同胚
归一化流(Normalizing Flow)通过可逆变换 改变概率分布:
Jacobian行列式恰好是流形的体积元变换因子。
信息几何中的曲率与统计推断
曲率张量
曲率张量 描述了流形的弯曲程度:
其中 是黎曼曲率张量。
曲率的统计意义
- 零曲率(平坦):统计曲率处处为零,所有联络都退化
- 正曲率:统计推断困难(高曲率 = 高信息变化率)
- 负曲率:类噪声结构
Cramér-Rao下界的几何解释
Cramér-Rao下界:
几何上, 正好是黎曼流形上切空间的度规逆,给出了方差的下界。
总结
| 概念 | 核心要点 |
|---|---|
| Fisher信息矩阵 | 概率分布流形上的黎曼度量 |
| α-联络 | 统计流形上不同的联络结构 |
| 指数族 | 对偶平坦的重要分布类 |
| Bregman散度 | 源于Legendre变换的散度族 |
| 自然梯度 | Fisher度量下的最速下降方向 |
信息几何提供了理解概率分布空间和统计推断的深刻框架。它将微分几何与信息论/统计学统一起来,为变分推断、变分自编码器、自然梯度优化等领域提供了坚实的理论基础。
参考
Footnotes
-
Amari, S. (2016). Information Geometry and Its Applications. Springer. ↩