抽样分布基础 (Foundations of Sampling)
总体与样本
总体(Population) 是研究对象的全体,其数量特征由概率分布描述。设总体服从分布 ,其中 为未知参数。
样本(Sample) 是从总体中随机抽取的部分观测值。设 为来自总体 的简单随机样本,则:
- 相互独立
- 每个 与总体 同分布
样本是进行统计推断的基石。
统计量的定义
统计量(Statistic) 是样本 的函数 ,且不包含任何未知参数。
常见统计量包括:
- 样本均值:
- 样本方差:
- 样本标准差:
- 样本矩(见下节)
注意:统计量完全由样本决定,不依赖于任何未知参数。因此,我们可以根据样本直接计算统计量的值。
经验分布函数
设 为总体 的样本,将它们按从小到大排列:
经验分布函数(Empirical Distribution Function, EDF) 定义为:
其中 为示性函数,当 时取值为 1,否则为 0。
物理意义: 表示样本中不超过 的观测值所占的比例,是总体分布函数 的自然估计。
样本矩
原点矩
阶原点矩(-th Raw Moment):
- 时,(样本均值)
中心矩
阶中心矩(-th Central Moment):
- 时,(样本方差分母为 ,而非 )
注意:样本矩与总体矩相对应。当样本容量足够大时,样本矩依概率收敛于相应的总体矩,这正是矩估计法的理论依据。
格利文科-坎泰利定理
格利文科-坎泰利定理(Glivenko-Cantelli Theorem) 是经验分布函数理论的核心结果:
设 为来自总体分布 的简单随机样本, 为经验分布函数,则:
定理含义:
- 经验分布函数 以概率 1 一致收敛于总体分布函数
- 当样本容量 足够大时, 可以作为 的近似,且误差可控
直观理解:随着样本量增加,样本中各观测值出现的频率逐渐逼近总体各区间对应的概率。
应用价值:该定理为数理统计中的许多非参数方法提供了理论基础,表明用样本推断总体是可靠的。