指数族分布

1. 定义与基本形式

1.1 为什么研究指数族？

指数族分布是统计学中最重要的分布类别之一，具有以下优点：

统一框架：高斯、伯努利、Poisson等都可以用统一形式表达
共轭性：与指数族先验共轭，后验仍是指数族
计算高效：许多统计量有解析形式
变分推断友好：平均场变分推断在指数族中有闭式解

1.2 标准形式

定义：一个概率分布属于指数族，如果其概率密度（质量）函数可以写成：

p (x ∣ η) = h (x) exp {η^{T} T (x) - A (η)}

其中：

$η \in R^{d}$ ：自然参数（natural parameter）
$T (x)$ ：充分统计量（sufficient statistic）
$h (x) \geq 0$ ：基础度量（base measure）
$A (η)$ ：对数配分函数（log partition function），确保归一化

配分函数的归一化作用：

A (η) = lo g \int h (x) exp {η^{T} T (x)} d x

1.3 例子：高斯分布

一维高斯分布 $N (x ∣ μ, σ^{2})$ ：

p (x ∣ μ, σ^{2}) = \frac{1}{2 π σ ^{2}} exp {- \frac{( x - μ ) ^{2}}{2 σ ^{2}}}

写成指数族形式：

η = (\frac{μ}{σ ^{2}} - \frac{1}{2 σ ^{2}}), T (x) = (x x^{2}), A (η) = \frac{μ ^{2}}{2 σ ^{2}} + \frac{1}{2} lo g (2 π σ^{2})

2. 常见分布的指数族形式

2.1 伯努利分布

Bern (x ∣ π) = π^{x} (1 - π)^{1 - x} = (1 - π) exp {x lo g \frac{π}{1 - π}}

参数	表达式
自然参数 $η$	$lo g \frac{π}{1 - π}$ （log-odds）
充分统计量 $T (x)$	$x$
基础度量 $h (x)$	$1$
配分函数 $A (η)$	$lo g (1 + e^{η})$
反解 $π$	$σ (η) = \frac{1}{1 + e ^{- η}}$ （sigmoid）

2.2 多项分布

多项分布 $Mult (x ∣ n, π)$ 用于离散多类问题：

p (x ∣ π) = \frac{n !}{\prod _{k} x _{k} !} k \prod π_{k}^{x_{k}}

参数	表达式
自然参数 $η_{k}$	$lo g π_{k}$ （约束 $\sum π_{k} = 1$ ）
充分统计量 $T_{k} (x)$	$x_{k}$
配分函数 $A (η)$	$lo g (1 + \sum_{k = 1}^{K - 1} e^{η_{k}})$

2.3 泊松分布

Poisson (x ∣ λ) = \frac{λ ^{x} e ^{- λ}}{x !} = \frac{1}{x !} exp {x lo g λ - λ}

参数	表达式
自然参数 $η$	$lo g λ$
充分统计量 $T (x)$	$x$
基础度量 $h (x)$	$\frac{1}{x !}$
配分函数 $A (η)$	$e^{η}$

2.4 Gamma分布

Gamma (x ∣ a, b) = \frac{b ^{a}}{Γ ( a )} x^{a - 1} e^{- b x}, x > 0

参数	表达式
自然参数 $η$	$(a - 1, - b)$
充分统计量 $T (x)$	$(lo g x, x)$
配分函数 $A (η)$	$lo g Γ (a) - a lo g b$

2.5 Beta分布

Beta (x ∣ α, β) = \frac{Γ ( α + β )}{Γ ( α ) Γ ( β )} x^{α - 1} (1 - x)^{β - 1}

参数	表达式
自然参数 $η$	$(α - 1, β - 1)$
充分统计量 $T (x)$	$(lo g x, lo g (1 - x))$
基础度量 $h (x)$	$1$
配分函数 $A (η)$	$lo g Γ (η_{1} + 1) + lo g Γ (η_{2} + 1) - lo g Γ (η_{1} + η_{2} + 2)$

3. 指数族的数学性质

3.1 矩母函数与累积量

对数配分函数的导数

对数配分函数 $A (η)$ 的导数给出矩：

\frac{\partial A ( η )}{\partial η _{i}} = E [T_{i} (X)]

\frac{\partial ^{2} A ( η )}{\partial η _{i} \partial η _{j}} = Cov [T_{i} (X), T_{j} (X)]

例子：对于伯努利分布

A (η) = lo g (1 + e^{η})

\frac{d A}{d η} = \frac{e ^{η}}{1 + e ^{η}} = σ (η) = E [X]

\frac{d ^{2} A}{d η ^{2}} = σ (η) (1 - σ (η)) = Var [X]

3.2 期望参数化

期望参数（expectation parameter）定义为：

μ = E [T (X)]

例如：

伯努利： $μ = E [X] = π$
高斯： $μ = E [(x, x^{2})] = (μ, μ^{2} + σ^{2})$

自然参数与期望参数的关系：

μ = \nabla A (η)

3.3 KL散度的简洁形式

指数族之间的KL散度有简洁形式：

对于 $p (x) = exp {η_{p}^{T} T (x) - A (η_{p})}$ 和 $q (x) = exp {η_{q}^{T} T (x) - A (η_{q})}$ ：

KL (p ∥ q) = (η_{p} - η_{q})^{T} μ_{p} - (A (η_{p}) - A (η_{q}))

4. 共轭先验

4.1 什么是共轭先验？

定义：如果先验 $p (η)$ 与似然 $p (x ∣ η)$ 的乘积与后验 $p (η ∣ x)$ 属于同一分布族，则称该先验为共轭先验。

4.2 指数族共轭先验的形式

对于指数族分布，其共轭先验形式为：

p (η ∣ ν, χ) \propto exp {ν η^{T} χ - ν A (η)}

其中：

$ν > 0$ ：伪观测数（pseudo-count）
$χ$ ：伪充分统计量

后验更新：

p (η ∣ x_{1}, ..., x_{n}) \propto p (η) i = 1 \prod n p (x_{i} ∣ η)

若先验参数为 $(ν_{0}, χ_{0})$ ，则后验参数为：

ν_{n} = ν_{0} + n, χ_{n} = \frac{ν _{0} χ _{0} + \sum _{i = 1}^{n} T ( x _{i} )}{ν _{0} + n}

4.3 共轭先验对照表

似然分布	共轭先验	先验参数	后验参数
伯努利	Beta	$(α, β)$	$(α + n_{1}, β + n_{0})$
多项	Dirichlet	$(α_{1}, ..., α_{K})$	$(α_{1} + n_{1}, ..., α_{K} + n_{K})$
泊松	Gamma	$(a, b)$	$(a + \sum x_{i}, b + n)$
高斯（固定 $σ^{2}$ ）	Gaussian	$(μ_{0}, σ_{0}^{2})$	$(\frac{σ _{0}^{2}}{σ _{0}^{2} + σ ^{2}} \overset{x}{ˉ} + \frac{σ ^{2}}{σ _{0}^{2} + σ ^{2}} μ_{0}, \frac{σ _{0}^{2} σ ^{2}}{σ _{0}^{2} + σ ^{2}})$
高斯（固定 $μ$ ）	Inverse-Gamma	$(a, b)$	$(a + n /2, b + \frac{1}{2} \sum (x_{i} - μ)^{2})$

4.4 共轭先验的直观理解

Beta-Bernoulli例子：

先验： $p (π) = Beta (α, β)$

似然： $p (X ∣ π) = \prod_{i = 1}^{n} π^{x_{i}} (1 - π)^{1 - x_{i}}$

后验：

p (π ∣ X) \propto π^{α - 1} (1 - π)^{β - 1} \cdot π^{\sum x_{i}} (1 - π)^{n - \sum x_{i}} = π^{(α + \sum x_{i}) - 1} (1 - π)^{(β + n - \sum x_{i}) - 1} = Beta (α + n_{1}, β + n_{0})

其中 $n_{1} = \sum x_{i}$ ， $n_{0} = n - n_{1}$ 。

5. 变分推断中的应用

5.1 平均场变分推断的闭式解

在平均场变分推断中，最优因子 $q_{j} (z_{j})$ 的形式为：

lo g q_{j}^{*} (z_{j}) \propto E_{q_{∖ j}} [lo g p (x, z)] + const

对于指数族，由于对数似然是 $η^{T} T (z_{j})$ 的线性函数，我们可以得到闭式解。

5.2 例子：混合高斯模型的变分推断

import numpy as np
 
class ExponentialFamilyVI:
    """指数族分布的变分推断"""
    
    def fit(self, X, n_components, n_iter=100):
        """变分EM算法"""
        N, D = X.shape
        
        # 初始化变分参数
        self.alpha = np.ones(n_components) / n_components  # 混合系数
        self.phi = [self._init_params(D) for _ in range(n_components)]  # 高斯参数
        
        for _ in range(n_iter):
            # E步：更新隐变量后验
            self._e_step(X)
            
            # M步：更新变分参数
            self._m_step(X)
    
    def _init_params(self, D):
        """初始化高斯参数（指数族形式）"""
        return {
            'xi': np.zeros(D),      # 线性充分统计量
            'tau': 0,               # 二次充分统计量
            'nu': 1                 # 伪观测数
        }
    
    def _e_step(self, X):
        """E步：计算隐变量后验"""
        N, D = X.shape
        responsibilities = np.zeros((N, self.n_components))
        
        for k in range(self.n_components):
            # 计算期望充分统计量
            E_z_k = self._compute_expected_sufficient_stats(k)
            
            # 计算对数后验
            log_resp = np.log(self.alpha[k] + 1e-10)
            log_resp += self._gaussian_log_likelihood(X, E_z_k)
            responsibilities[:, k] = log_resp
        
        # 归一化
        responsibilities = np.exp(responsibilities - responsibilities.max(axis=1, keepdims=True))
        responsibilities /= responsibilities.sum(axis=1, keepdims=True)
        
        return responsibilities
    
    def _m_step(self, X):
        """M步：更新指数族参数的闭式解"""
        N, D = X.shape
        N_k = self.responsibilities.sum(axis=0)
        
        for k in range(self.n_components):
            # 更新伪观测数
            self.phi[k]['nu'] = N_k[k]
            
            # 更新线性充分统计量
            self.phi[k]['xi'] = (self.responsibilities[:, k:k+1] * X).sum(axis=0) / N_k[k]
            
            # 更新二次充分统计量
            self.phi[k]['tau'] = (self.responsibilities[:, k:k+1] * (X**2).sum(axis=1)).sum() / N_k[k]
        
        # 更新混合系数
        self.alpha = N_k / N
    
    def _compute_expected_sufficient_stats(self, k):
        """计算期望充分统计量"""
        phi = self.phi[k]
        D = len(phi['xi'])
        
        # E[ξ] = φ['xi'] / φ['nu']
        E_xi = phi['xi'] / phi['nu']
        
        # E[τ] = φ['tau'] / φ['nu']
        E_tau = phi['tau'] / phi['nu']
        
        return {'E_xi': E_xi, 'E_tau': E_tau}

5.3 共轭指数族模型的优势

优势	说明
闭式后验	无需迭代优化后验参数
计算高效	变分推断有解析解
数值稳定	避免梯度估计
可解释性	先验参数有明确含义（伪观测）

6. 信息几何视角

6.1 流形结构

指数族分布的集合形成一个黎曼流形：

点：分布 $p_{η} (x)$
坐标：自然参数 $η$ 或期望参数 $μ$
度量：Fisher信息矩阵

6.2 Fisher信息矩阵

Fisher信息矩阵定义了流形上的黎曼度量：

g_{ij} (η) = Cov_{η} [T_{i} (X), T_{j} (X)] = \frac{\partial ^{2} A ( η )}{\partial η _{i} \partial η _{j}}

几何意义：

曲率由Fisher信息矩阵刻画
自然梯度 $\tilde{\nabla}_{η} f = G (η)^{- 1} \nabla_{η} f$
自然梯度下降在信息几何意义上最优

6.3 指数族中的距离

距离	定义
KL散度	$D (p ∥ q) = (η_{p} - η_{q})^{T} (μ_{p} - μ_{q}) - (A (η_{p}) - A (η_{q}))$
f-散度	一般 $D_{f} (p ∥ q) = \int p (x) f (\frac{q ( x )}{p ( x )}) d x$
Wasserstein距离	在高斯族中有闭式解

7. 指数族与机器学习

7.1 广义线性模型（GLM）

GLM将指数族分布与线性预测器结合：

Y ∣ X \sim ExponentialFamily (θ = β^{T} X)

链接函数：

规范链接： $θ = η = β^{T} X$
Logit链接（伯努利）： $lo g \frac{p}{1 - p} = β^{T} X$
Log链接（Poisson）： $lo g λ = β^{T} X$

7.2 条件随机场（CRF）

CRF是指数族在序列建模中的应用，详见conditional-random-fields-sequence。

7.3 变分推断的理论基础

指数族在变分推断中的重要性：

平均场假设下，最优因子是指数族分布
共轭性使得后验更新有闭式解
充分统计量减少了需要近似的维度

7.4 神经网络与指数族

现代神经网络可以看作是条件指数族模型：

p (y ∣ X) = ExponentialFamily (η = f_{θ} (X))

例如：

Softmax输出层：多项指数族
Sigmoid输出层：伯努利指数族
高斯输出层：高斯指数族

8. 进阶主题

8.1 混合指数族

混合多个指数族分布得到混合指数族：

p (x) = k = 1 \sum K π_{k} exp {η_{k}^{T} T (x) - A (η_{k})}

特点：

不再是指数族（失去解析性质）
但仍可使用变分推断近似
EM算法有闭式E步

8.2 规范化流与指数族

归一化流可以将简单指数族转换为复杂分布：

z_{K} = f_{K} \circ \dots \circ f_{1} (z_{0}), z_{0} \sim N (0, I)

变换后的分布对数密度：

lo g p (z_{K}) = lo g p (z_{0}) - k = 1 \sum K lo g det \frac{\partial f _{k}}{\partial z _{k - 1}}

8.3 指数族的扩展

扩展	说明
弯曲指数族	协方差结构随均值变化
非指数族	如Student-t、混合分布
非参数指数族	在函数空间上的指数族

Metaphor

探索

指数族分布

指数族分布

1. 定义与基本形式

1.1 为什么研究指数族？

1.2 标准形式

1.3 例子：高斯分布

2. 常见分布的指数族形式

2.1 伯努利分布

2.2 多项分布

2.3 泊松分布

2.4 Gamma分布

2.5 Beta分布

3. 指数族的数学性质

3.1 矩母函数与累积量

对数配分函数的导数

3.2 期望参数化

3.3 KL散度的简洁形式

4. 共轭先验

4.1 什么是共轭先验？

4.2 指数族共轭先验的形式

4.3 共轭先验对照表

4.4 共轭先验的直观理解

5. 变分推断中的应用

5.1 平均场变分推断的闭式解

5.2 例子：混合高斯模型的变分推断

5.3 共轭指数族模型的优势

6. 信息几何视角

6.1 流形结构

6.2 Fisher信息矩阵

6.3 指数族中的距离

7. 指数族与机器学习

7.1 广义线性模型（GLM）

7.2 条件随机场（CRF）

7.3 变分推断的理论基础

7.4 神经网络与指数族

8. 进阶主题

8.1 混合指数族

8.2 规范化流与指数族

8.3 指数族的扩展

参考文献

关系图谱

目录