三大抽样分布

三大抽样分布——卡方分布、 分布和 分布——都可以看作“样本随机性”被规范化后的结果。它们之所以重要,是因为它们把正态总体中的样本波动,直接转化成可以用于参数估计、置信区间和假设检验的标准工具。1

这三种分布之所以在统计学中占据核心地位,是因为它们都与正态分布有着密切的派生关系。当我们从正态总体中抽取样本并构造统计量时,这些统计量的分布不依赖于原总体的均值或方差参数,只与样本量和自由度有关。这种”参数无关”的特性使得它们成为假设检验和区间估计的通用工具。1

具体而言:

  • 卡方分布:用于度量样本方差相对于总体方差的比例关系,是方差估计和方差齐性检验的基础;
  • 分布:当总体方差未知时,用样本方差替代,描述标准化后均值的分布;
  • 分布:用于比较两个独立样本方差的比值,是方差分析(ANOVA)的核心工具。

引言

在数学统计中,我们通常不是直接研究总体参数,而是先观察样本,再用样本去推断总体。三大抽样分布正是这一推断过程的核心桥梁:

  • 卡方分布描述“平方后的波动有多大”;
  • 分布描述“均值估计在总体方差未知时有多不确定”;
  • 分布描述“两个方差或两个方差来源的比值有多大差异”。

因此,它们常常出现在方差分析、方差检验、均值检验和拟合优度检验中,也构成了后续许多统计方法的基础。

卡方分布(Chi-Square Distribution)

定义

为独立同分布的标准正态随机变量 ,则:

服从自由度为 的卡方分布,记作

直观上看,卡方分布衡量的是“若干个标准正态扰动的平方和”。平方会消除正负号,因此它适合刻画偏离程度、残差大小和样本方差。

概率密度函数/图像特征

分布的概率密度函数为:

其中 为 Gamma 函数。

图像特征:

  • 定义域(右偏分布)
  • 形状:随自由度 增大,分布趋于正态
  • 时为标准正态平方,密度在原点附近奇异
  • 时,密度函数先增后减,在 处取得峰值

应用

  • 用于总体方差的区间估计与假设检验。
  • 用于拟合优度检验,判断观察频数与理论频数是否相符。
  • 用于描述样本方差的抽样波动,因为样本方差本质上就是“偏离均值的平方平均”。

与其他分布的关系

,且独立,则:

,样本均值为 ,样本方差为 ,则:

这说明:在正态总体下,样本方差经过标准化后,恰好服从卡方分布。也正因为如此,卡方分布成了“方差推断”的天然工具。


分布(Student’s Distribution)

定义

,且 独立,则:

服从自由度为 的学生 分布,记作

直观上看, 分布就是“标准正态除以一个随机尺度”。当总体方差未知时,我们只能用样本标准差代替,于是均值的标准化结果就不再是标准正态,而变成了 分布。

概率密度函数/图像特征

图像特征:

  • 对称性:关于 对称(与标准正态类似)
  • 尾部:比正态分布更厚(“重尾”)
  • 时,
  • 时为柯西分布

应用

  • 用于总体均值的置信区间估计。
  • 用于单样本 检验、配对样本 检验和两独立样本 检验。
  • 当样本量不大、总体方差未知时, 分布比正态分布更保守,因此更适合实际推断。

与其他分布的关系

,样本均值为 ,样本方差为 ,则:

这表明: 分布直接来源于“均值误差 ÷ 估计标准误”。它和卡方分布紧密相关,因为分母中的 就来自卡方分布。


分布(Fisher-Snedecor Distribution)

定义

,且 独立,则:

服从自由度为 分布,记作

直观上看, 分布刻画的是“两组平方波动之比”。因为它比较的是两个方差来源的相对大小,所以特别适合做方差齐性检验和方差分析。

概率密度函数/图像特征

其中 为 Beta 函数。

图像特征:

  • 定义域(右偏分布)
  • 峰值:随 增大,分布趋于对称
  • 时,密度函数先增后减

应用

  • 用于比较两个总体方差是否相等。
  • 用于方差分析(ANOVA),判断多个总体均值是否存在显著差异。
  • 用于回归模型整体显著性检验,因为模型解释的变异与残差变异的比值常可写成 统计量。

与其他分布的关系

,两个样本独立,样本方差分别为 ,则:

分布的分位数关系

,则:

这一性质常用于置信区间和假设检验。

它反映了 分布本质上是“两个卡方变量按自由度标准化之后的比值”,因此它和卡方分布共享同一套随机波动来源。


分位数表

三大抽样分布的分位数表是统计推断的重要工具,常见的表格形式包括:

分布常用分位数应用场景
方差估计、拟合优度检验
均值置信区间、 检验
方差齐性检验、方差分析

实际使用:现在通常使用统计软件(如 R、Python scipy)直接计算分位数,已较少依赖纸质分位数表。

三大分布的联系

标准正态 Z ~ N(0,1)
    │
    ├── Z² ──────────────────→ χ²(n)
    │                              │
    │                              │
    └── Z / √(χ²(n)/n) ──────────→ t(n)
    │                              │
    │                              │
χ²(n₁)/n₁ ─┐                       │
           ├─→ (χ²(n₁)/n₁)/(χ²(n₂)/n₂) → F(n₁, n₂)
χ²(n₂)/n₂ ─┘

相关章节

Footnotes

  1. 这三种分布的直观解释可参考 Medium 文章 Understanding Probability And Statistics: Student-t, Chi-Squared And F Distributions 2