充分性与数据压缩

定义

充分统计量（Sufficient Statistic） 是统计学中最重要的概念之一。

定义：设 $X_{1}, \dots, X_{n}$ 为来自总体 $F (x; θ)$ 的样本， $T = T (X_{1}, \dots, X_{n})$ 为统计量。如果在给定 $T = t$ 的条件下，样本的条件分布与参数 $θ$ 无关，即：

P_{θ} (X_{1}, \dots, X_{n} \in A ∣ T = t) 不依赖于 θ, \forall A

则称 $T$ 为 $θ$ 的充分统计量。

为什么要充分统计量？ 考虑一个直观的例子：假设我们投掷一枚硬币 100 次，记录正面朝上的次数。如果我们只告诉你总和是 57 次，你就已经掌握了关于这枚硬币偏误（参数 $p$ ）的全部信息——你不再需要知道具体是哪 57 次正面朝上、哪些是反面朝上。样本的排列顺序被”忽略”了，因为它们不再提供关于 $p$ 的额外信息。

这就是充分统计量的核心思想：把样本压缩成少数几个数值，同时不损失关于参数的任何信息。充分统计量就像一个高效的信息压缩器。¹

直观理解

充分统计量包含了样本中关于参数 $θ$ 的全部信息。给定充分统计量的值后，样本不再提供任何关于 $θ$ 的额外信息。

从“数据压缩”的角度看，充分统计量就是一种无损压缩：原始样本可能有 $n$ 个观测值，但我们只保留少量统计量，就能完成关于 $θ$ 的全部推断。它把“保留信息”和“降低维度”这两个目标同时实现了。

例子：正态分布的样本均值

设 $X_{1}, \dots, X_{n} \sim N (μ, σ^{2})$ ，其中 $σ^{2}$ 已知。则样本均值 $\overset{ˉ}{X}$ 是 $μ$ 的充分统计量。

验证：在给定 $\overset{ˉ}{X} = \overset{x}{ˉ}$ 的条件下，样本的条件分布与 $μ$ 无关。

这说明如果我们只关心均值参数 $μ$ ，那么保存全部原始样本并不会比保存 $\overset{ˉ}{X}$ 带来更多关于 $μ$ 的信息。

因子分解定理

因子分解定理（Factorization Theorem） 提供了判断充分统计量的简便方法。

定理：设总体分布有概率密度函数（或概率质量函数） $f (x; θ)$ ， $X_{1}, \dots, X_{n}$ 为样本。统计量 $T$ 是 $θ$ 的充分统计量，当且仅当存在函数 $g (t, θ)$ 和 $h (x_{1}, \dots, x_{n})$ 使得：

L (θ; x_{1}, \dots, x_{n}) = f (x_{1}; θ) \dots f (x_{n}; θ) = g (T (x_{1}, \dots, x_{n}), θ) \cdot h (x_{1}, \dots, x_{n})

即似然函数可以分解为两部分：一部分仅通过 $T$ 依赖于 $θ$ ，另一部分与 $θ$ 无关。

这一定理揭示了充分性的本质：关于参数的信息，只通过统计量 $T$ 进入似然函数。因此，若要做参数估计、置信区间或假设检验，直接使用 $T$ 就足够了。

判别方法

写出似然函数 $L (θ; x)$
识别出与 $θ$ 相关的部分
如果这部分仅通过某个统计量 $T$ 依赖于 $x$ ，则 $T$ 是充分统计量

指数族分布

定义

若总体分布的概率密度函数可以写成：

f (x; θ) = c (θ) h (x) exp (j = 1 \sum k w_{j} (θ) t_{j} (x))

则称该分布属于指数族分布（Exponential Family）。

正则形式

将参数 $θ$ 替换为自然参数 $η$ ：

f (x; η) = h (x) c (η) exp (j = 1 \sum k η_{j} t_{j} (x))

其中 $η = (η_{1}, \dots, η_{k})$ 为自然参数， $t_{j} (x)$ 为充分统计量。

指数族之所以重要，是因为它几乎是“天然适配”充分统计量的一类分布：常见模型往往都能写成“参数只通过少量统计量出现”的形式，因此非常适合做无损压缩与推断。

常见指数族分布

分布	概率密度函数	自然参数	充分统计量
正态 $N (μ, σ^{2})$ （ $σ^{2}$ 已知）	$\propto exp (- \frac{x ^{2}}{2 σ ^{2}} + \frac{μ}{σ ^{2}} x)$	$η = μ / σ^{2}$	$(\sum x_{i}, \sum x_{i}^{2})$
泊松 $P (λ)$	$\propto exp (- λ + x lo g λ)$	$η = lo g λ$	$\sum x_{i}$
二项 $B (n, p)$	$\propto exp (x lo g \frac{p}{1 - p} + n lo g (1 - p))$	$η = lo g \frac{p}{1 - p}$	$\sum x_{i}$
伽马 $Γ (α, β)$	$\propto exp (- (β - 1) lo g x + (- β) x)$	$η_{1} = - β, η_{2} = α - 1$	$(\sum x_{i}, \sum lo g x_{i})$

指数族的重要性质

存在充分统计量：对于指数族分布，存在 $k$ 维充分统计量 $T (x) = (t_{1} (x), \dots, t_{k} (x))$
数据压缩：可以用 $k$ 个统计量代替 $n$ 个原始观测值，且不损失关于 $θ$ 的信息
MLE 的解析形式：对于指数族，MLE 满足 $\sum_{i = 1}^{n} t_{j} (x_{i}) = n \cdot E_{θ} [t_{j} (X)]$

应用/例子

常见分布的充分统计量

总体分布	未知参数	充分统计量
$N (μ, σ^{2})$	$μ$ 已知， $σ^{2}$ 未知	$\sum X_{i}^{2}$
$N (μ, σ^{2})$	$σ^{2}$ 已知， $μ$ 未知	$\sum X_{i}$
$N (μ, σ^{2})$	$μ, σ^{2}$ 均未知	$(\sum X_{i}, \sum X_{i}^{2})$
$P (λ)$	$λ$ 未知	$\sum X_{i}$
$U (0, θ)$	$θ$ 未知	$X_{(n)} = max (X_{1}, \dots, X_{n})$
$B in (n, p)$	$p$ 未知	$\sum X_{i}$
$Γ (α, β)$	$α, β$ 均未知	$(\sum X_{i}, \sum lo g X_{i})$

为什么它在实践中有用

参数估计更高效：只需要对少量统计量求解，而不必反复扫描全部原始数据。
模型实现更简单：很多在线算法、流式算法只需维护累计和、计数、平方和等少量量。
解释更清晰：例如泊松模型里，样本和直接对应总事件数，是最自然的强度信息摘要。
便于推导推断结果：置信区间、似然比检验、贝叶斯后验常常都能只写成充分统计量的函数。

极小充分统计量

极小充分统计量（Minimal Sufficient Statistic） 是在充分性基础上进一步追求“最小”的概念。

定义：若 $T$ 是充分统计量，且对任何其他充分统计量 $T^{'}$ ，存在函数 $g$ 使得 $T = g (T^{'})$ ，则称 $T$ 为极小充分统计量。

意义：极小充分统计量在所有充分统计量中信息量相同但维度最低，是数据压缩的极致。

辅助统计量与完备性

辅助统计量（Ancillary Statistic）：其分布不依赖于参数 $θ$ 。

例子：设 $X_{1}, X_{2} \sim N (μ, σ^{2})$ ，则 $X_{1} - X_{2}$ 的分布是 $N (0, 2 σ^{2})$ ，与 $μ$ 无关但依赖于 $σ^{2}$ 。

完备性（Completeness）：设 $T$ 为统计量，若对任意函数 $g$ ，由 $E_{θ} [g (T)] = 0$ 对所有 $θ$ 成立可以推出 $g (T) = 0$ （几乎处处），则称 $T$ 为完备统计量。

完备性在证明最优性时非常有用。

实际场景

质量控制：对一批产品只记录均值、方差和极值，就能完成大部分参数监控任务。
计数数据建模：网站点击数、事故数、到达次数常用泊松模型，样本和就是核心摘要量。
区间上界问题：均匀分布 $U (0, θ)$ 中，最大值 $X_{(n)}$ 直接决定对 $θ$ 的估计。
在线/流式计算：对于大规模数据，保留充分统计量比保存全量样本更省内存，也更便于实时更新。

Metaphor

探索

充分性与数据压缩

充分性与数据压缩

定义

直观理解

例子：正态分布的样本均值

因子分解定理

判别方法

指数族分布

定义

正则形式

常见指数族分布

指数族的重要性质

应用/例子

常见分布的充分统计量

为什么它在实践中有用

极小充分统计量

辅助统计量与完备性

实际场景

相关章节

关系图谱

目录

反向链接

Metaphor

探索

充分性与数据压缩

充分性与数据压缩

定义

直观理解

例子：正态分布的样本均值

因子分解定理

判别方法

指数族分布

定义

正则形式

常见指数族分布

指数族的重要性质

应用/例子

常见分布的充分统计量

为什么它在实践中有用

极小充分统计量

辅助统计量与完备性

实际场景

相关章节

Footnotes

关系图谱

目录

反向链接