抽样分布基础 (Foundations of Sampling)

总体与样本

总体(Population) 是研究对象的全体,其数量特征由概率分布描述。设总体服从分布 ,其中 为未知参数。

样本(Sample) 是从总体中随机抽取的部分观测值。设 为来自总体 简单随机样本,则:

  • 相互独立
  • 每个 与总体 同分布

样本是进行统计推断的基石。

统计量的定义

统计量(Statistic) 是样本 的函数 ,且不包含任何未知参数

常见统计量包括:

  • 样本均值:
  • 样本方差:
  • 样本标准差:
  • 样本矩(见下节)

注意:统计量完全由样本决定,不依赖于任何未知参数。因此,我们可以根据样本直接计算统计量的值。

经验分布函数

为总体 的样本,将它们按从小到大排列:

经验分布函数(Empirical Distribution Function, EDF) 定义为:

其中 为示性函数,当 时取值为 1,否则为 0。

物理意义 表示样本中不超过 的观测值所占的比例,是总体分布函数 的自然估计。

样本矩

原点矩

阶原点矩(-th Raw Moment)

  • 时,(样本均值)

中心矩

阶中心矩(-th Central Moment)

  • 时,(样本方差分母为 ,而非

注意:样本矩与总体矩相对应。当样本容量足够大时,样本矩依概率收敛于相应的总体矩,这正是矩估计法的理论依据。

格利文科-坎泰利定理

格利文科-坎泰利定理(Glivenko-Cantelli Theorem) 是经验分布函数理论的核心结果:

为来自总体分布 的简单随机样本, 为经验分布函数,则:

定理含义

  • 经验分布函数 以概率 1 一致收敛于总体分布函数
  • 当样本容量 足够大时, 可以作为 的近似,且误差可控

直观理解:随着样本量增加,样本中各观测值出现的频率逐渐逼近总体各区间对应的概率。

应用价值:该定理为数理统计中的许多非参数方法提供了理论基础,表明用样本推断总体是可靠的。

相关章节