共轭先验完整推导

概述

共轭先验（Conjugate Prior）是贝叶斯统计中的核心概念¹²。当先验分布与似然函数共轭时，后验分布与先验分布属于同一分布族，这极大地简化了贝叶斯推断的计算。

核心思想：选择先验分布使得后验分布与先验分布具有相同的函数形式。

1. 共轭性的定义

1.1 数学定义

设似然函数为 $P (x ∣ θ)$ ，先验分布为 $π (θ)$ 。如果后验分布

π (θ ∣ x) \propto P (x ∣ θ) π (θ)

与先验 $π (θ)$ 属于同一分布族，则称 $π (θ)$ 为 $P (x ∣ θ)$ 的共轭先验。

1.2 指数族视角

指数族分布具有自然的共轭结构³：

P (x ∣ θ) = h (x) exp {η (θ)^{T} T (x) - A (θ)}

其中 $η (θ)$ 是自然参数， $T (x)$ 是充分统计量。

共轭先验的形式为：

π (θ ∣ α, β) = h (θ) exp {η (θ)^{T} α - β A (θ)}

2. 伯努利/二项模型

2.1 问题设置

设 $X_{1}, ..., X_{n} \sim Bernoulli (θ)$ ，即：

P (X_{i} = 1) = θ, P (X_{i} = 0) = 1 - θ

似然函数：

P (D ∣ θ) = θ^{k} (1 - θ)^{n - k}

其中 $k = \sum_{i = 1}^{n} X_{i}$ 是成功次数。

2.2 Beta先验

Beta分布定义：

θ \sim Beta (α, β) = \frac{θ ^{α - 1} ( 1 - θ ) ^{β - 1}}{B ( α , β )}

其中 $B (α, β) = \frac{Γ ( α ) Γ ( β )}{Γ ( α + β )}$ 。

2.3 后验推导

先验： $π (θ) \propto θ^{α - 1} (1 - θ)^{β - 1}$

似然： $P (D ∣ θ) \propto θ^{k} (1 - θ)^{n - k}$

后验：

π (θ ∣ D) \propto θ^{α - 1} (1 - θ)^{β - 1} \cdot θ^{k} (1 - θ)^{n - k} = θ^{(α + k) - 1} (1 - θ)^{(β + n - k) - 1}

因此：

θ ∣ D \sim Beta (α + k, β + n - k)

2.4 更新公式

参数	更新公式
先验	$α, β$
后验	$α^{'} = α + k, β^{'} = β + n - k$

超参数的物理意义：

$α$ ：先验成功次数的”伪计数”
$β$ ：先验失败次数的”伪计数”

2.5 后验预测分布

新观测的后验预测分布：

P (X_{n + 1} = 1∣ D) = E [θ ∣ D] = \frac{α + k}{α + β + n}

这称为后验均值估计。

3. 多项/Dirichlet模型

3.1 问题设置

设 $X \sim Multinomial (K, θ_{1}, ..., θ_{K})$ ，即：

P (X = (x_{1}, ..., x_{K})) = \frac{n !}{x _{1} ! \dots x _{K} !} j = 1 \prod K θ_{j}^{x_{j}}

约束： $\sum_{j} θ_{j} = 1, θ_{j} \geq 0$ 。

3.2 Dirichlet先验

Dirichlet分布定义：

(θ_{1}, ..., θ_{K}) \sim Dir (α_{1}, ..., α_{K}) = \frac{1}{B ( α )} j = 1 \prod K θ_{j}^{α_{j} - 1}

其中 $B (α) = \frac{\prod _{j} Γ ( α _{j} )}{Γ ( \sum _{j} α _{j} )}$ 。

3.3 后验推导

先验： $π (θ) \propto \prod_{j = 1}^{K} θ_{j}^{α_{j} - 1}$

似然： $P (D ∣ θ) \propto \prod_{j = 1}^{K} θ_{j}^{k_{j}}$ ，其中 $k_{j}$ 是类别 $j$ 的计数

后验：

π (θ ∣ D) \propto j = 1 \prod K θ_{j}^{(α_{j} + k_{j}) - 1}

因此：

θ ∣ D \sim Dir (α_{1} + k_{1}, ..., α_{K} + k_{K})

3.4 均匀Dirichlet的特殊性质

当 $α_{j} = 1$ （均匀先验）时：

Dir (1, 1, ..., 1) \propto 1

后验仍为Dirichlet，其参数为 $1 + k_{j}$ 。

与拉普拉斯平滑的关系：

\hat{θ}_{j}^{L a pl} = \frac{k _{j} + 1}{n + K} = \frac{( α _{j} + k _{j} )}{( α _{j} + k _{j} ) + \sum _{j} ( α _{j} + k _{j} ) - α _{j}}

当 $α_{j} = 1$ 时，这就是拉普拉斯平滑。

4. 泊松模型

4.1 问题设置

设 $X_{1}, ..., X_{n} \sim Poisson (λ)$ ，即：

P (X_{i} = x) = \frac{λ ^{x} e ^{- λ}}{x !}

似然函数：

P (D ∣ λ) = i = 1 \prod n \frac{λ ^{x_{i}} e ^{- λ}}{x _{i} !} \propto λ^{\sum x_{i}} e^{- nλ}

4.2 Gamma先验

Gamma分布定义：

λ \sim Gamma (α, β) = \frac{β ^{α}}{Γ ( α )} λ^{α - 1} e^{- β λ}

其中 $α$ 是形状参数， $β$ 是率参数（或 $θ = 1/ β$ 是尺度参数）。

4.3 后验推导

先验： $π (λ) \propto λ^{α - 1} e^{- β λ}$

似然： $P (D ∣ λ) \propto λ^{\sum x_{i}} e^{- nλ}$

后验：

π (λ ∣ D) \propto λ^{(α + \sum x_{i}) - 1} e^{- (β + n) λ}

因此：

λ ∣ D \sim Gamma (α + i = 1 \sum n X_{i}, β + n)

4.4 更新公式

参数	更新公式
先验	$α, β$
后验	$α^{'} = α + \sum x_{i}, β^{'} = β + n$

4.5 后验均值

E [λ ∣ D] = \frac{α + \sum x _{i}}{β + n} = \frac{β}{β + n} \cdot \frac{α}{β} + \frac{n}{β + n} \cdot \overset{x}{ˉ}

这是先验均值和样本均值的加权平均。

5. 指数模型

5.1 问题设置

设 $X_{1}, ..., X_{n} \sim Exp (λ)$ ，即：

P (X_{i} > x) = e^{- λ x}, f (x) = λ e^{- λ x}

似然函数：

P (D ∣ λ) = λ^{n} exp {- λ i = 1 \sum n x_{i}}

5.2 共轭先验

指数分布的共轭先验也是Gamma分布：

λ \sim Gamma (α, β)

5.3 后验

λ ∣ D \sim Gamma (α + n, β + i = 1 \sum n X_{i})

6. 正态模型

6.1 已知方差，估计均值

设 $X_{1}, ..., X_{n} \sim N (μ, σ^{2})$ ，其中 $σ^{2}$ 已知。

似然函数：

P (D ∣ μ) \propto exp {- \frac{1}{2 σ ^{2}} i = 1 \sum n (x_{i} - μ)^{2}}

正态先验：

μ \sim N (μ_{0}, σ_{0}^{2})

后验推导：

μ ∣ D \sim N (μ_{n}, σ_{n}^{2})

其中：

σ_{n}^{2} = (\frac{1}{σ _{0}^{2}} + \frac{n}{σ ^{2}})^{- 1}

μ_{n} = σ_{n}^{2} (\frac{μ _{0}}{σ _{0}^{2}} + \frac{n x ˉ}{σ ^{2}})

6.2 已知均值，估计方差

设 $X_{1}, ..., X_{n} \sim N (μ, σ^{2})$ ，其中 $μ$ 已知。

逆Gamma先验：

σ^{2} \sim Inv-Gamma (α, β)

后验：

σ^{2} ∣ D \sim Inv-Gamma (α + \frac{n}{2}, β + \frac{1}{2} i = 1 \sum n (x_{i} - μ)^{2})

6.3 均值和方差都未知

Normal-Inverse-Gamma先验：

μ, σ^{2} \sim N-IG (μ_{0}, κ_{0}, α_{0}, β_{0})

后验：

μ, σ^{2} ∣ D \sim N-IG (μ_{n}, κ_{n}, α_{n}, β_{n})

其中：

κ_{n} = κ_{0} + n, μ_{n} = \frac{κ _{0} μ _{0} + n x ˉ}{κ _{n}}

α_{n} = α_{0} + \frac{n}{2}

β_{n} = β_{0} + \frac{1}{2} i = 1 \sum n (x_{i} - \overset{x}{ˉ})^{2} + \frac{κ _{0} n ( x ˉ - μ _{0} ) ^{2}}{2 κ _{n}}

7. 共轭先验完整表

7.1 离散分布

似然	先验	后验参数	后验
Bernoulli( $θ$ )	Beta( $α, β$ )	$α^{'} = α + k$ $β^{'} = β + n - k$	Beta
Binomial( $n, θ$ )	Beta( $α, β$ )	$α^{'} = α + k$ $β^{'} = β + n - k$	Beta
Poisson( $λ$ )	Gamma( $α, β$ )	$α^{'} = α + \sum x_{i}$ $β^{'} = β + n$	Gamma
Multinomial( $θ$ )	Dir( $α_{1}, ..., α_{K}$ )	$α_{j}^{'} = α_{j} + k_{j}$	Dir
Geometric( $p$ )	Beta( $α, β$ )	$α^{'} = α + n$ $β^{'} = β + \sum x_{i} - n$	Beta

7.2 连续分布

似然	先验	后验参数	后验
Normal( $μ, σ^{2}$ ), $σ^{2}$ 已知	$N (μ_{0}, σ_{0}^{2})$	$μ_{n} = \frac{σ _{0}^{2} n x ˉ + σ ^{2} μ _{0}}{σ _{0}^{2} n + σ ^{2}}$ $σ_{n}^{2} = \frac{σ _{0}^{2} σ ^{2}}{σ _{0}^{2} n + σ ^{2}}$	Normal
Normal( $μ, σ^{2}$ ), $μ$ 已知	Inv-Gamma( $α, β$ )	$α^{'} = α + n /2$ $β^{'} = β + \frac{1}{2} \sum (x_{i} - μ)^{2}$	Inv-Gamma
Normal( $μ, σ^{2}$ ), 都未知	N-IG( $μ_{0}, κ_{0}, α_{0}, β_{0}$ )	见正文	N-IG
Exponential( $λ$ )	Gamma( $α, β$ )	$α^{'} = α + n$ $β^{'} = β + \sum x_{i}$	Gamma

8. 共轭先验的Python实现

import numpy as np
from scipy import stats
from scipy.special import gammaln, betaln
 
class ConjugateUpdate:
    """共轭先验更新实现"""
    
    @staticmethod
    def beta_binomial_update(alpha, beta, successes, trials):
        """
        Beta-Binomial共轭更新
        
        参数:
            alpha, beta: 先验参数
            successes: 成功次数 k
            trials: 试验次数 n
        
        返回:
            后验参数 (alpha', beta')
        """
        return alpha + successes, beta + trials - successes
    
    @staticmethod
    def dirichlet_multinomial_update(alpha, counts):
        """
        Dirichlet-Multinomial共轭更新
        
        参数:
            alpha: 先验参数向量
            counts: 各类别计数
        
        返回:
            后验参数向量
        """
        return alpha + counts
    
    @staticmethod
    def gamma_poisson_update(alpha, beta, observations):
        """
        Gamma-Poisson共轭更新
        
        参数:
            alpha, beta: 先验参数
            observations: 观测数据
        
        返回:
            后验参数 (alpha', beta')
        """
        return alpha + np.sum(observations), beta + len(observations)
    
    @staticmethod
    def normal_known_var_update(mu0, sigma0_sq, sigma_sq, observations):
        """
        已知方差的正态均值估计的共轭更新
        
        参数:
            mu0, sigma0_sq: 先验均值和方差
            sigma_sq: 已知方差
            observations: 观测数据
        
        返回:
            后验均值和方差
        """
        n = len(observations)
        x_bar = np.mean(observations)
        
        sigma_n_sq = 1 / (1/sigma0_sq + n/sigma_sq)
        mu_n = sigma_n_sq * (mu0/sigma0_sq + n*x_bar/sigma_sq)
        
        return mu_n, sigma_n_sq
    
    @staticmethod
    def normal_unknown_var_update(mu0, kappa0, alpha0, beta0, observations):
        """
        均值和方差都未知的正态模型的共轭更新
        
        参数:
            mu0, kappa0, alpha0, beta0: N-IG先验参数
            observations: 观测数据
        
        返回:
            后验N-IG参数
        """
        n = len(observations)
        x = np.array(observations)
        x_bar = np.mean(x)
        
        kappa_n = kappa0 + n
        mu_n = (kappa0 * mu0 + n * x_bar) / kappa_n
        
        alpha_n = alpha0 + n / 2
        
        # 分解为两部分
        ss_between = kappa0 * n * (x_bar - mu0)**2 / (2 * kappa_n)
        ss_within = np.sum((x - x_bar)**2) / 2
        beta_n = beta0 + ss_between + ss_within
        
        return mu_n, kappa_n, alpha_n, beta_n
 
 
class PosteriorPredictive:
    """后验预测分布"""
    
    @staticmethod
    def beta_binomial_predictive(alpha, beta, n, x):
        """
        Beta-Binomial后验预测分布
        
        P(X=x | D) = C(n,x) * B(alpha+x, beta+n-x) / B(alpha, beta)
        """
        return (betaln(alpha + x, beta + n - x) - betaln(alpha, beta) + 
                np.log(np.math.comb(n, x)))
    
    @staticmethod
    def dirichlet_multinomial_predictive(alpha, n, x):
        """
        Dirichlet-Multinomial后验预测分布
        """
        return (np.sum([betaln(alpha_j + x_j, alpha_sum + n - alpha_sum_j) 
                        for alpha_j, x_j in zip(alpha, x)]) -
                betaln(alpha, alpha).sum() +
                gammaln(alpha.sum() + n) - gammaln(alpha.sum()))

9. 先验选择的实践指南

9.1 无信息先验

模型	Jeffreys先验
Bernoulli	$π (θ) \propto θ^{- 1/2} (1 - θ)^{- 1/2}$
Poisson	$π (λ) \propto λ^{- 1/2}$
Normal( $μ, σ^{2}$ )	$π (μ, σ^{2}) \propto σ^{- 3}$

9.2 经验贝叶斯

通过数据估计超参数：

\overset{α}{^}, \hat{β} = ar g α max \int P (D ∣ α, β) π (α, β) d α d β

9.3 共轭先验的局限性

问题	解决方案
表达力有限	使用混合先验
不适用于复杂模型	变分推断、MCMC
可能过于主观	敏感性分析

Metaphor

探索

共轭先验完整推导

共轭先验完整推导

概述

1. 共轭性的定义

1.1 数学定义

1.2 指数族视角

2. 伯努利/二项模型

2.1 问题设置

2.2 Beta先验

2.3 后验推导

2.4 更新公式

2.5 后验预测分布

3. 多项/Dirichlet模型

3.1 问题设置

3.2 Dirichlet先验

3.3 后验推导

3.4 均匀Dirichlet的特殊性质

4. 泊松模型

4.1 问题设置

4.2 Gamma先验

4.3 后验推导

4.4 更新公式

4.5 后验均值

5. 指数模型

5.1 问题设置

5.2 共轭先验

5.3 后验

6. 正态模型

6.1 已知方差，估计均值

6.2 已知均值，估计方差

6.3 均值和方差都未知

7. 共轭先验完整表

7.1 离散分布

7.2 连续分布

8. 共轭先验的Python实现

9. 先验选择的实践指南

9.1 无信息先验

9.2 经验贝叶斯

9.3 共轭先验的局限性

10. 总结

共轭先验的优势

何时使用

何时不使用

参考资料

相关主题

Footnotes

关系图谱

目录

反向链接