抽样分布基础

定义与介绍

总体(Population) 是研究对象的全体,其数量特征由概率分布描述。设总体服从分布 ,其中 为未知参数。

样本(Sample) 是从总体中随机抽取的部分观测值。设 为来自总体 简单随机样本,则:

  • 相互独立;
  • 每个 与总体 同分布。

样本之所以重要,是因为实际研究通常无法直接观察整个总体,只能通过样本去近似总体。样本是否“像”总体,决定了后续推断是否可靠。

核心性质与原理

统计量(Statistic) 是样本 的函数 ,且不包含任何未知参数

常见统计量包括:

  • 样本均值:
  • 样本方差:
  • 样本标准差:
  • 样本矩(见下节)。

注意:统计量完全由样本决定,不依赖于任何未知参数。因此,我们可以根据样本直接计算统计量的值。

统计量的意义不只是“做计算”,而是把原始样本压缩成更有信息的量,以便刻画总体特征、比较差异,或构造估计与检验。

经验分布函数

为总体 的样本,将它们按从小到大排列:

经验分布函数(Empirical Distribution Function, EDF) 定义为:

其中 为示性函数,当 时取值为 1,否则为 0。

物理意义 表示样本中不超过 的观测值所占的比例,是总体分布函数 的自然估计。它之所以重要,是因为它直接把“频率”转化成了对“概率”的近似。

样本矩

原点矩

阶原点矩(-th Raw Moment)

  • 时,(样本均值)。

中心矩

阶中心矩(-th Central Moment)

  • 时,(样本方差分母为 ,而非 )。

注意:样本矩与总体矩相对应。当样本容量足够大时,样本矩依概率收敛于相应的总体矩,这正是矩估计法的理论依据。换言之,样本矩之所以能用于估计参数,是因为“大样本下的样本平均行为”会逼近总体的真实结构。

格利文科-坎泰利定理

格利文科-坎泰利定理(Glivenko-Cantelli Theorem) 是经验分布函数理论的核心结果:

为来自总体分布 的简单随机样本, 为经验分布函数,则:

定理含义

  • 经验分布函数 以概率 1 一致收敛于总体分布函数
  • 当样本容量 足够大时, 可以作为 的近似,且误差可控。

直观理解:随着样本量增加,样本中各观测值出现的频率逐渐逼近总体各区间对应的概率。1

举个生活中的例子:总体就像一锅汤,样本就像一勺汤。如果我们想知道整锅汤的味道(总体均值),舀一勺尝一口(样本)就能推断。但同一锅汤,不同位置舀出来的味道可能略有不同——这就是”抽样变异”。抽样分布描述的就是:当我们反复从总体中抽取同样大小的样本时,这些样本统计量(如样本均值)会形成怎样的分布。

应用价值:该定理为数理统计中的许多非参数方法提供了理论基础,表明用样本推断总体是可靠的。它说明:只要抽样机制合理,样本的整体分布形状最终会稳定地逼近总体分布。2

应用与例子

  1. 参数估计:样本均值、样本方差、样本矩常被用来估计总体参数,因为它们能把样本信息压缩成少数几个可解释的量。
  2. 非参数推断:经验分布函数可以直接用于近似总体分布,特别适合不想先假设具体分布形式的情形。
  3. 相关章节

这些内容彼此关联:抽样分布描述“统计量会怎么变”,经验分布函数描述“样本如何逼近总体”,而点估计则利用这种逼近来恢复未知参数。

Footnotes

  1. 关于抽样分布的直观理解,可参考 Statistics by Jim 的教程页面。Sampling Distribution: Definition, Formula & Examples

  2. Wikipedia,Mathematical statistics 页面,可参考其中关于格利文科-坎泰利定理的说明与相关背景。