贝叶斯推断

哲学背景:频率派 vs 贝叶斯派

贝叶斯统计的核心不是“把未知参数估出来”这么简单,而是把对参数的不确定性本身建模。在贝叶斯视角里,参数不是一个已经固定、只是我们不知道的常数,而是带有概率分布的随机变量;这个分布表达的是我们当前对参数的信念强弱,而不是参数本身在重复试验中的频率。

频率派 vs 贝叶斯派

观点频率派贝叶斯派
参数性质固定常数(虽未知但非随机)随机变量,服从某个分布
样本作用用于推断固定参数用于更新对参数的认知
先验信息不考虑充分利用
推断结果参数的点估计/区间估计参数的后验分布

为什么参数可以是随机变量?

这里的“随机”并不是说参数在物理世界里真的一会儿变大、一会儿变小,而是说:在观测数据到来之前,我们对参数只有不完整的信息。因此,可以用概率分布来描述“我们对参数的了解程度”。

随着数据不断到来,这个分布会被更新;所以贝叶斯推断本质上是一个“学习过程”,而不是一次性求解一个固定真值。

贝叶斯公式

贝叶斯统计的核心是贝叶斯公式

其中:

  • 先验分布(Prior Distribution),在观测数据之前对参数 的认知
  • 似然函数(Likelihood),给定参数时观测数据的概率密度
  • 后验分布(Posterior Distribution),综合了先验信息和样本数据后对 的认知
  • 边缘似然(Marginal Likelihood),与 无关

贝叶斯更新的思想:先验分布 后验分布 持续更新。

先验与后验

先验分布

无信息先验(Non-Informative Prior) 尽量少地引入主观信息:

  • 拉普拉斯先验:(平坦先验)
  • Jeffreys 先验:,其中 为费希尔信息量

后验分布

后验分布是把先验知识和样本信息融合后的结果。它不是“先验和数据的简单平均”,而是通过贝叶斯公式把两者按概率机制严格结合起来。

直观理解

  • 先验分布表示“数据到来之前,我们怎么看待参数”;
  • 似然函数表示“如果参数取某个值,当前数据有多合理”;
  • 后验分布表示“综合两者之后,我们应该怎样理解参数”。

示例:二项分布的贝叶斯推断

,先验

似然函数

后验分布

后验均值(贝叶斯估计):

直观理解:后验均值是先验均值 和样本均值 的加权平均,权重与样本量和先验参数有关。

共轭先验

共轭先验(Conjugate Prior):若先验分布 与似然函数 的组合使得后验分布 与先验分布 属于同一分布族,则称该先验为共轭先验。

共轭先验的优点:计算简便,后验分布有解析形式。

常见共轭先验

总体分布未知参数共轭先验后验分布
二项
泊松
正态 已知)
正态 已知)
指数

为什么共轭先验如此重要? 在贝叶斯推断中,后验分布的计算涉及一个复杂的积分:

分母这个积分往往难以解析求解。当我们使用共轭先验时,后验分布与先验分布属于同一分布族,积分可以被解析地消除——我们只需要更新分布的参数(超参数),而不需要处理复杂的积分运算。

以二项分布为例:如果我们用 作为 的先验,观测到 次成功、 次失败后,后验分布为 。参数更新只是简单的加法!这使得贝叶斯推断在计算上变得可行。1

共轭先验的另一优势:当我们进行序贯更新(sequential update)时,共轭先验的优越性更加明显——每新增一次观测,只需要更新超参数,而不需要重新计算整个后验分布。

贝叶斯估计

从后验分布可以导出参数的点估计:

  • 后验均值
  • 后验中位数 满足
  • 后验众数(MAP 估计)

区间估计:可信区间

贝叶斯派的区间估计称为可信区间(Credible Interval),与置信区间有本质区别:

可信区间:满足

与置信区别的关键:可信区间是说“ 落在区间内的概率为 ”( 是随机变量),而置信区间是说“随机区间以 的概率包含固定参数”。

应用与示例

后验分布的计算

对于共轭先验,后验分布可以直接写出解析形式(如上例)。

对于非共轭情况,常用数值方法:

  • 数值积分:直接计算后验分布的归一化常数
  • 马尔可夫链蒙特卡洛(MCMC):如 Gibbs 采样、Metropolis-Hastings 算法
  • 变分推断(Variational Inference):近似后验分布

贝叶斯假设检验

贝叶斯因子

贝叶斯因子(Bayes Factor) 是后验 odds 与先验 odds 的比值:

其中 为在假设 下的边缘似然。

解释

  • :数据支持
  • :数据支持

Jeffreys 准则

| | 证据强度 |
|------------|---------|
| 1 ~ 3.2 | 微弱 |
| 3.2 ~ 10 | 中等 |
| 10 ~ 100 | 强 |
| | 极强 |

相关章节

与频率派对比

方面频率派贝叶斯派
参数观固定常数随机变量
样本观随机抽样固定实现
推断基础抽样分布后验分布
置信/可信区间依赖抽样分布直接来自后验分布
对先验的态度不使用先验信息充分利用先验信息
计算复杂度通常较低通常较高(MCMC)

更本质的差别

频率派关心的是“如果重复抽样无数次,会发生什么”,所以参数被看作一个固定但未知的真值;贝叶斯派关心的是“在已经看到数据以后,我应当如何更新认知”,所以参数被看作不确定对象,用分布来刻画。

这也是为什么贝叶斯方法天然适合:

  • 小样本问题;
  • 有先验知识的问题;
  • 需要直接给出“参数取值概率”的问题;
  • 层次模型与复杂模型的推断问题。

Footnotes

  1. 关于共轭先验的详细讲解,可参考 Gregory Gundersen 的博客 Conjugacy in Bayesian Inference