贝叶斯推断 (Bayesian Inference)
贝叶斯统计的哲学基础
频率派 vs 贝叶斯派
| 观点 | 频率派 | 贝叶斯派 |
|---|---|---|
| 参数性质 | 固定常数(虽未知但非随机) | 随机变量,服从某个分布 |
| 样本作用 | 用于推断固定参数 | 用于更新对参数的认知 |
| 先验信息 | 不考虑 | 充分利用 |
| 推断结果 | 参数的点估计/区间估计 | 参数的后验分布 |
贝叶斯公式
贝叶斯统计的核心是贝叶斯公式:
其中:
- :先验分布(Prior Distribution),在观测数据之前对参数 的认知
- :似然函数(Likelihood),给定参数时观测数据的概率密度
- :后验分布(Posterior Distribution),综合了先验信息和样本数据后对 的认知
- :边缘似然(Marginal Likelihood),与 无关
贝叶斯更新的思想:先验分布 后验分布 持续更新。
先验分布
无信息先验
无信息先验(Non-Informative Prior) 尽量少地引入主观信息:
- 拉普拉斯先验:(平坦先验)
- Jeffreys 先验:,其中 为费希尔信息量
共轭先验
共轭先验(Conjugate Prior):若先验分布 与似然函数 的组合使得后验分布 与先验分布 属于同一分布族,则称该先验为共轭先验。
共轭先验的优点:计算简便,后验分布有解析形式。
常见共轭先验
| 总体分布 | 未知参数 | 共轭先验 | 后验分布 |
|---|---|---|---|
| 二项 | |||
| 泊松 | |||
| 正态 ( 已知) | |||
| 正态 ( 已知) | |||
| 指数 |
示例:二项分布的贝叶斯推断
设 ,先验 。
似然函数:
后验分布:
即 。
后验均值(贝叶斯估计):
直观理解:后验均值是先验均值 和样本均值 的加权平均,权重与样本量和先验参数有关。
后验分布的计算
解析计算
对于共轭先验,后验分布可以直接写出解析形式(如上例)。
数值计算
对于非共轭情况,常用数值方法:
- 数值积分:直接计算后验分布的归一化常数
- 马尔可夫链蒙特卡洛(MCMC):如 Gibbs 采样、Metropolis-Hastings 算法
- 变分推断(Variational Inference):近似后验分布
贝叶斯估计
点估计
从后验分布可以导出参数的点估计:
- 后验均值:
- 后验中位数: 满足
- 后验众数(MAP 估计):
区间估计:可信区间
贝叶斯派的区间估计称为可信区间(Credible Interval),与置信区间有本质区别:
可信区间:满足
与置信区别的关键:可信区间是说” 落在区间内的概率为 ”( 是随机变量),而置信区间是说”随机区间以 的概率包含固定参数”。
贝叶斯假设检验
贝叶斯因子
贝叶斯因子(Bayes Factor) 是后验 odds 与先验 odds 的比值:
其中 为在假设 下的边缘似然。
解释:
- :数据支持
- :数据支持
Jeffreys 准则
| | 证据强度 |
|------------|---------|
| 1 ~ 3.2 | 微弱 |
| 3.2 ~ 10 | 中等 |
| 10 ~ 100 | 强 |
| | 极强 |
频率派与贝叶斯派的对比总结
| 方面 | 频率派 | 贝叶斯派 |
|---|---|---|
| 参数观 | 固定常数 | 随机变量 |
| 样本观 | 随机抽样 | 固定实现 |
| 推断基础 | 抽样分布 | 后验分布 |
| 置信/可信区间 | 依赖抽样分布 | 直接来自后验分布 |
| 对先验的态度 | 不使用先验信息 | 充分利用先验信息 |
| 计算复杂度 | 通常较低 | 通常较高(MCMC) |