概述

信息几何(Information Geometry)是将微分几何应用于概率分布空间的一门学科。它研究概率分布形成的流形的几何结构,为统计推断、机器学习和优化提供了统一而深刻的视角。1

核心思想:概率分布构成的空间具有自然的黎曼几何结构,其由Fisher信息矩阵给出。


概率分布作为流形

统计流形的定义

设有一族概率分布 ,其中 是参数向量。参数空间 可以被看作一个 流形

每个分布 是流形上的一个”点”,而参数 是该点的(局部)坐标。

示例:单参数分布族

        p(x)
         │
    1.0  │      ╭─────── p(x;θ₁)
         │     ╱
         │    ╱     ╭─── p(x;θ₀)
         │   ╱     ╱
         │  ╱    ╱
         │ ╱   ╱
         │╱  ╱
         ───────────── x
         
         参数θ定义了分布空间中的路径

流形的局部结构

在点 附近,分布的变化可以通过分数函数(score function)描述:

分数函数的协方差定义了Fisher信息:


Fisher信息矩阵

定义

是参数分布族,Fisher信息矩阵(FIM)定义为:

其中期望是对 取的。

直观理解

Fisher信息度量了分布对参数变化的”敏感度”

  • 信息量大 分布随参数变化剧烈 更容易估计该参数
  • 信息量小 分布变化平缓 参数估计困难

一维情形

对于单参数

这正是分数函数的方差。

计算示例:高斯分布

,参数

对数似然

Fisher信息矩阵

Fisher信息的性质

性质公式说明
对称性Hessian是对称矩阵
正定性信息矩阵总是正定
参数变换Jacobi矩阵变换
Cramér-Rao下界最优估计的方差下界

黎曼度量

Fisher度量

Fisher信息矩阵定义了一个黎曼度量(Riemannian Metric),称为Fisher度量Fisher-Rao度量

在参数流形上,两个切向量的内积为:

黎曼距离

两点 之间的Fisher距离定义为沿最短路径(测地线)的积分:

其中

KL散度作为对比

KL散度与Fisher距离有密切关系:

在无穷小邻域内,KL散度与Fisher距离平方成正比。


α-联络(α-Connections)

定义

信息几何中最重要的概念之一是α-联络族,它参数化了不同的几何结构:

其中 是指数联络系数, 是熵函数。

特殊情形

联络名称曲率性质
指数联络-联络)零曲率(平坦)
混合联络-联络)零曲率(平坦)
Fisher-Chentsov联络一般非平坦

-平坦与 -平坦

  • -平坦:指数族分布是 -平坦的
  • -平坦:均值参数化下是 -平坦的

平行移动

在黎曼流形中,平行移动(Parallel Transport)沿着测地线移动切向量而不改变其与联络的相对关系。

信息几何中的平行移动具有特殊性质:

  • 沿 -平坦子流形的平行移动恰好是条件期望
  • 这为最优传输变分推断提供了几何解释

指数族分布的几何结构

指数族的定义

指数族分布具有形式:

其中:

  • :自然参数
  • :充分统计量
  • :对数配分函数(确保归一化)
  • :底层测度

指数族的例子

分布参数形式充分统计量
伯努利
正态(已知方差)
泊松
指数
Gamma

指数族的几何性质

指数族 是统计流形的一个极其重要的子流形:

  1. -平坦:自然参数空间 -平坦的
  2. 对偶平坦:存在对偶坐标系(自然参数 和期望参数

期望参数

期望参数定义为:

形成对偶坐标系,满足:


Bregman散度

定义

Bregman散度是信息几何中最重要的概念之一:

是严格凸的可微函数(称为Bregman函数),则:

几何直观

    F(θ)
     │
     │           ╱  F(θ₁)
     │          ╱  ╱
     │         ╱  ╱    ← 切线近似
     │        ╱  ╱
     │       ╱  ╱
     │      ╱──╱──── F(θ₂) + ⟨∇F(θ₂), θ₁-θ₂⟩
     │     ╱  ╱
     │    ╱  ╱
     │   ╱──╱──────── Bregman散度
     │  θ₂ θ₁
     └────────────────────── θ

Bregman散度是”真实函数值”与”切平面近似值”之间的差距。

与指数族的联系

  • 选择 (对数配分函数)得到反向KL散度
  • 选择 (Legendre变换)得到前向KL散度
  • -散度类包含了KL散度、β-散度、γ-散度等

Bregman投影

在约束集合上的Bregman投影:

这正是EM算法中M步的几何解释。


自然梯度与信息几何优化

普通梯度的问题

在参数空间使用欧几里得度量,普通梯度下降:

然而,当Fisher信息矩阵变化剧烈时,这个方向可能不是最”有效”的。

自然梯度定义

自然梯度(Natural Gradient)使用Fisher度量:

更新变为:

自然梯度的优点

方面普通梯度自然梯度
度量欧几里得Fisher-Rao
缩放与参数化相关无关(协变)
收敛速度依赖条件数更稳定
几何解释最速下降方向KL散度下最速下降

与KL散度的联系

自然梯度方向恰好是KL散度 下的最速下降方向:

这将优化与信息几何统一起来。


变分推断的几何视角

变分推断的核心

变分推断(VI)用简单的分布 近似后验

信息几何解释

         后验 p(Z|X)
            ╱ ╲
           ╱   ╲
          ╱     ╲
         ╱   ✦  ╲  ← 最优近似 q*(Z)
        ╱       ╲
       ╱─────────── 指数族分布族
       
       ✦ = 在指数族流形上的投影
  • 是统计流形上的点
  • 变分族(指数族)是流形上的子流形
  • VI = 在子流形上的黎曼投影

坐标下降与混合联络

  • M步-联络下的投影
  • E步-联络下的投影

这解释了EM算法为什么能工作——交替在不同联络下的投影。


Amortized变分推断

摊销近似

标准VI中每个数据点需要优化变分参数。摊销推断(Amortized Inference)使用神经网络学习从数据到变分参数的映射:

其中 是神经网络参数。

重参数化技巧

信息几何视角下的重参数化:

  1. 先在”干净”空间(欧几里得)采样
  2. 通过确定性变换映射到目标分布空间
  3. 变换的Jacobian正好补偿了度量变化

信息几何在深度学习中的应用

1. 损失景观的几何分析

神经网络的损失函数在参数空间中形成复杂的黎曼流形,Fisher信息矩阵(经验Hessian)刻画了局部几何。

2. 最优传输与信息几何

Wasserstein梯度流是信息几何中 Wasserstein 空间上的自然演化:

其中 是自由能泛函。这为扩散模型的训练动态提供了几何解释。

3. 归一化流的微分同胚

归一化流(Normalizing Flow)通过可逆变换 改变概率分布:

Jacobian行列式恰好是流形的体积元变换因子。


信息几何中的曲率与统计推断

曲率张量

曲率张量 描述了流形的弯曲程度:

其中 是黎曼曲率张量。

曲率的统计意义

  • 零曲率(平坦):统计曲率处处为零,所有联络都退化
  • 正曲率:统计推断困难(高曲率 = 高信息变化率)
  • 负曲率:类噪声结构

Cramér-Rao下界的几何解释

Cramér-Rao下界:

几何上, 正好是黎曼流形上切空间的度规逆,给出了方差的下界。


总结

概念核心要点
Fisher信息矩阵概率分布流形上的黎曼度量
α-联络统计流形上不同的联络结构
指数族对偶平坦的重要分布类
Bregman散度源于Legendre变换的散度族
自然梯度Fisher度量下的最速下降方向

信息几何提供了理解概率分布空间和统计推断的深刻框架。它将微分几何与信息论/统计学统一起来,为变分推断、变分自编码器、自然梯度优化等领域提供了坚实的理论基础。


参考

Footnotes

  1. Amari, S. (2016). Information Geometry and Its Applications. Springer.