次序统计量

定义

为来自总体 的简单随机样本,将它们按从小到大排列:

次序统计量(Order Statistic) 定义为:

特别地:

  • :最小值(极小值)
  • :最大值(极大值)
  • 合称极值(Extremes)

次序统计量把“样本中的值”转换为“样本中的位置信息”,因此它不仅描述数值大小,还直接刻画分布尾部、分位数和稳健中心位置。对于非参数统计来说,这一点尤其重要,因为很多方法不依赖具体分布形式,而是依赖样本的相对次序;也就是说,次序统计量提供了一种对分布形状假设更弱、对极端值更不敏感的分析框架。

常见次序统计量

样本中位数

为奇数时,样本中位数

为偶数时,样本中位数为中间两个数的平均:

中位数是位置特征的稳健估计,不受极端值影响。

样本极差

样本极差(Sample Range) 定义为:

极差反映了样本的离散程度,但仅利用了最大值和最小值的信息。

-次序统计量

个次序统计量 包含了样本中第 小的观测值信息。

密度函数推导

设总体 的概率密度函数为 ,分布函数为 ,则第 个次序统计量 的概率密度函数为:

推导思路 意味着恰好有 个观测值小于 ,1 个观测值等于 个观测值大于

该式表明,次序统计量的分布由“左侧样本个数、右侧样本个数、局部密度”三部分共同决定,因此它天然反映了分位点附近的局部概率结构。

极值的密度函数

最小值 的密度函数:

最大值 的密度函数:

联合密度函数

全体次序统计量 的联合密度函数为:

其中 来自 个观测值排列顺序的数目。

注意:联合密度仅在 时非零。

应用

次序统计量在非参数统计中有广泛的应用。原因在于,非参数方法往往不试图完整刻画总体分布,而是利用样本顺序、秩和分位数等“分布无关”的信息来做推断;次序统计量正是这些方法的基础对象。它们既能用于稳健描述中心位置,也能用于构造区间估计、秩检验和分位数估计,因此在无法合理假设正态分布、或数据含有离群点时尤其有价值。

顺序统计量秩

样本观测值的**秩(Rank)**定义为:

在样本中的排名。秩是许多非参数检验的核心。

秩统计量

基于秩构造的统计量称为秩统计量,例如:

  • Wilcoxon 符号秩检验
  • Kruskal-Wallis 检验

次序统计量在非参数统计中具有不可替代的作用,原因在于它们完全基于样本观测值的大小排序,不依赖于总体的分布形式。这使得次序统计量成为”分布无关”(distribution-free)统计方法的核心。

实际应用举例

  1. 极值理论(Extreme Value Theory):研究最大值或最小值的分布规律,在金融风险管理和气象预测中有重要应用。例如,设计防洪堤坝时,需要根据历史最高水位数据预测”千年一遇”的洪水高度,这本质上就是次序统计量的应用。

  2. 分位数估计:样本分位数本身就是次序统计量的函数。中位数、四分位数、百分位数等都是次序统计量的线性组合。

  3. 非参数检验:Wilcoxon 符号秩检验基于秩的信息,Kruskal-Wallis 检验比较多个总体的秩次差异。1

分位数估计

样本分位数 定义为满足 的最小值,即:

其中 为上取整函数。

置信区间

利用次序统计量可以构造参数的非参数置信区间(见 区间估计)。
这类方法的重要性在于:它们通常只依赖样本的排序关系,而不依赖具体分布参数形式,因此在模型假设不充分时仍然有效。

示例:均匀分布次序统计量

,则 的密度函数为:

期望

相关章节

Footnotes

  1. Wikipedia, “Order statistic” 页面,包含更详细的数学推导和应用场景。