抽样分布基础
定义与介绍
总体(Population) 是研究对象的全体,其数量特征由概率分布描述。设总体服从分布 ,其中 为未知参数。
样本(Sample) 是从总体中随机抽取的部分观测值。设 为来自总体 的简单随机样本,则:
- 相互独立;
- 每个 与总体 同分布。
样本之所以重要,是因为实际研究通常无法直接观察整个总体,只能通过样本去近似总体。样本是否“像”总体,决定了后续推断是否可靠。
核心性质与原理
统计量(Statistic) 是样本 的函数 ,且不包含任何未知参数。
常见统计量包括:
- 样本均值:;
- 样本方差:;
- 样本标准差:;
- 样本矩(见下节)。
注意:统计量完全由样本决定,不依赖于任何未知参数。因此,我们可以根据样本直接计算统计量的值。
统计量的意义不只是“做计算”,而是把原始样本压缩成更有信息的量,以便刻画总体特征、比较差异,或构造估计与检验。
经验分布函数
设 为总体 的样本,将它们按从小到大排列:
经验分布函数(Empirical Distribution Function, EDF) 定义为:
其中 为示性函数,当 时取值为 1,否则为 0。
物理意义: 表示样本中不超过 的观测值所占的比例,是总体分布函数 的自然估计。它之所以重要,是因为它直接把“频率”转化成了对“概率”的近似。
样本矩
原点矩
阶原点矩(-th Raw Moment):
- 时,(样本均值)。
中心矩
阶中心矩(-th Central Moment):
- 时,(样本方差分母为 ,而非 )。
注意:样本矩与总体矩相对应。当样本容量足够大时,样本矩依概率收敛于相应的总体矩,这正是矩估计法的理论依据。换言之,样本矩之所以能用于估计参数,是因为“大样本下的样本平均行为”会逼近总体的真实结构。
格利文科-坎泰利定理
格利文科-坎泰利定理(Glivenko-Cantelli Theorem) 是经验分布函数理论的核心结果:
设 为来自总体分布 的简单随机样本, 为经验分布函数,则:
定理含义:
- 经验分布函数 以概率 1 一致收敛于总体分布函数 ;
- 当样本容量 足够大时, 可以作为 的近似,且误差可控。
直观理解:随着样本量增加,样本中各观测值出现的频率逐渐逼近总体各区间对应的概率。1
举个生活中的例子:总体就像一锅汤,样本就像一勺汤。如果我们想知道整锅汤的味道(总体均值),舀一勺尝一口(样本)就能推断。但同一锅汤,不同位置舀出来的味道可能略有不同——这就是”抽样变异”。抽样分布描述的就是:当我们反复从总体中抽取同样大小的样本时,这些样本统计量(如样本均值)会形成怎样的分布。
应用价值:该定理为数理统计中的许多非参数方法提供了理论基础,表明用样本推断总体是可靠的。它说明:只要抽样机制合理,样本的整体分布形状最终会稳定地逼近总体分布。2
应用与例子
- 参数估计:样本均值、样本方差、样本矩常被用来估计总体参数,因为它们能把样本信息压缩成少数几个可解释的量。
- 非参数推断:经验分布函数可以直接用于近似总体分布,特别适合不想先假设具体分布形式的情形。
- 相关章节:
这些内容彼此关联:抽样分布描述“统计量会怎么变”,经验分布函数描述“样本如何逼近总体”,而点估计则利用这种逼近来恢复未知参数。
Footnotes
-
关于抽样分布的直观理解,可参考 Statistics by Jim 的教程页面。Sampling Distribution: Definition, Formula & Examples ↩
-
Wikipedia,Mathematical statistics 页面,可参考其中关于格利文科-坎泰利定理的说明与相关背景。 ↩