充分性与数据压缩 (Sufficiency and Data Reduction)

充分统计量的定义

充分统计量(Sufficient Statistic) 是统计学中最重要的概念之一。

定义:设 为来自总体 的样本, 为统计量。如果在给定 的条件下,样本的条件分布与参数 无关,即:

则称 充分统计量

直观理解

充分统计量包含了样本中关于参数 全部信息。给定充分统计量的值后,样本不再提供任何关于 的额外信息。

例子:正态分布的样本均值

,其中 已知。则样本均值 的充分统计量。

验证:在给定 的条件下,样本的条件分布与 无关。

Fisher-Neyman 因子分解定理

因子分解定理(Factorization Theorem) 提供了判断充分统计量的简便方法。

定理:设总体分布有概率密度函数(或概率质量函数) 为样本。统计量 的充分统计量,当且仅当存在函数 使得:

即似然函数可以分解为两部分:一部分仅通过 依赖于 ,另一部分与 无关。

判别方法

  1. 写出似然函数
  2. 识别出与 相关的部分
  3. 如果这部分仅通过某个统计量 依赖于 ,则 是充分统计量

指数族分布

定义

若总体分布的概率密度函数可以写成:

则称该分布属于指数族分布(Exponential Family)

正则形式

将参数 替换为自然参数

其中 为自然参数, 为充分统计量。

常见指数族分布

分布概率密度函数自然参数充分统计量
正态 已知)
泊松
二项
伽马

指数族的重要性质

  1. 存在充分统计量:对于指数族分布,存在 维充分统计量
  2. 数据压缩:可以用 个统计量代替 个原始观测值,且不损失关于 的信息
  3. MLE 的解析形式:对于指数族,MLE 满足

极小充分统计量

极小充分统计量(Minimal Sufficient Statistic) 是在充分性基础上进一步追求”最小”的概念。

定义:若 是充分统计量,且对任何其他充分统计量 ,存在函数 使得 ,则称 为极小充分统计量。

意义:极小充分统计量在所有充分统计量中信息量相同但维度最低,是数据压缩的极致。

常见分布的充分统计量

总体分布未知参数充分统计量
已知, 未知
已知, 未知
均未知
未知
未知
未知
均未知

辅助统计量与完备性

辅助统计量

辅助统计量(Ancillary Statistic):其分布不依赖于参数

例子:设 ,则 的分布是 ,与 无关但依赖于

完备性

完备性(Completeness):设 为统计量,若对任意函数 ,由 对所有 成立可以推出 (几乎处处),则称 为完备统计量。

完备性在证明最优性时非常有用。

相关章节

  • 三大抽样分布:充分统计量的分布在抽样分布理论中的角色
  • 点估计:充分性与最优估计量的关系(Basu 定理、CRLB)
  • 次序统计量:极值统计量作为充分统计量的例子