充分性与数据压缩 (Sufficiency and Data Reduction)
充分统计量的定义
充分统计量(Sufficient Statistic) 是统计学中最重要的概念之一。
定义:设 为来自总体 的样本, 为统计量。如果在给定 的条件下,样本的条件分布与参数 无关,即:
则称 为 的充分统计量。
直观理解
充分统计量包含了样本中关于参数 的全部信息。给定充分统计量的值后,样本不再提供任何关于 的额外信息。
例子:正态分布的样本均值
设 ,其中 已知。则样本均值 是 的充分统计量。
验证:在给定 的条件下,样本的条件分布与 无关。
Fisher-Neyman 因子分解定理
因子分解定理(Factorization Theorem) 提供了判断充分统计量的简便方法。
定理:设总体分布有概率密度函数(或概率质量函数), 为样本。统计量 是 的充分统计量,当且仅当存在函数 和 使得:
即似然函数可以分解为两部分:一部分仅通过 依赖于 ,另一部分与 无关。
判别方法
- 写出似然函数
- 识别出与 相关的部分
- 如果这部分仅通过某个统计量 依赖于 ,则 是充分统计量
指数族分布
定义
若总体分布的概率密度函数可以写成:
则称该分布属于指数族分布(Exponential Family)。
正则形式
将参数 替换为自然参数 :
其中 为自然参数, 为充分统计量。
常见指数族分布
| 分布 | 概率密度函数 | 自然参数 | 充分统计量 |
|---|---|---|---|
| 正态 ( 已知) | |||
| 泊松 | |||
| 二项 | |||
| 伽马 |
指数族的重要性质
- 存在充分统计量:对于指数族分布,存在 维充分统计量
- 数据压缩:可以用 个统计量代替 个原始观测值,且不损失关于 的信息
- MLE 的解析形式:对于指数族,MLE 满足
极小充分统计量
极小充分统计量(Minimal Sufficient Statistic) 是在充分性基础上进一步追求”最小”的概念。
定义:若 是充分统计量,且对任何其他充分统计量 ,存在函数 使得 ,则称 为极小充分统计量。
意义:极小充分统计量在所有充分统计量中信息量相同但维度最低,是数据压缩的极致。
常见分布的充分统计量
| 总体分布 | 未知参数 | 充分统计量 |
|---|---|---|
| 已知, 未知 | ||
| 已知, 未知 | ||
| 均未知 | ||
| 未知 | ||
| 未知 | ||
| 未知 | ||
| 均未知 |
辅助统计量与完备性
辅助统计量
辅助统计量(Ancillary Statistic):其分布不依赖于参数 。
例子:设 ,则 的分布是 ,与 无关但依赖于 。
完备性
完备性(Completeness):设 为统计量,若对任意函数 ,由 对所有 成立可以推出 (几乎处处),则称 为完备统计量。
完备性在证明最优性时非常有用。