次序统计量
定义
设 为来自总体 的简单随机样本,将它们按从小到大排列:
次序统计量(Order Statistic) 定义为:
特别地:
- :最小值(极小值)
- :最大值(极大值)
- 与 合称极值(Extremes)
次序统计量把“样本中的值”转换为“样本中的位置信息”,因此它不仅描述数值大小,还直接刻画分布尾部、分位数和稳健中心位置。对于非参数统计来说,这一点尤其重要,因为很多方法不依赖具体分布形式,而是依赖样本的相对次序;也就是说,次序统计量提供了一种对分布形状假设更弱、对极端值更不敏感的分析框架。
常见次序统计量
样本中位数
当 为奇数时,样本中位数为 。
当 为偶数时,样本中位数为中间两个数的平均:
中位数是位置特征的稳健估计,不受极端值影响。
样本极差
样本极差(Sample Range) 定义为:
极差反映了样本的离散程度,但仅利用了最大值和最小值的信息。
-次序统计量
第 个次序统计量 包含了样本中第 小的观测值信息。
密度函数推导
设总体 的概率密度函数为 ,分布函数为 ,则第 个次序统计量 的概率密度函数为:
推导思路: 意味着恰好有 个观测值小于 ,1 个观测值等于 , 个观测值大于 。
该式表明,次序统计量的分布由“左侧样本个数、右侧样本个数、局部密度”三部分共同决定,因此它天然反映了分位点附近的局部概率结构。
极值的密度函数
最小值 的密度函数:
最大值 的密度函数:
联合密度函数
全体次序统计量 的联合密度函数为:
其中 来自 个观测值排列顺序的数目。
注意:联合密度仅在 时非零。
应用
次序统计量在非参数统计中有广泛的应用。原因在于,非参数方法往往不试图完整刻画总体分布,而是利用样本顺序、秩和分位数等“分布无关”的信息来做推断;次序统计量正是这些方法的基础对象。它们既能用于稳健描述中心位置,也能用于构造区间估计、秩检验和分位数估计,因此在无法合理假设正态分布、或数据含有离群点时尤其有价值。
顺序统计量秩
样本观测值的**秩(Rank)**定义为:
即 在样本中的排名。秩是许多非参数检验的核心。
秩统计量
基于秩构造的统计量称为秩统计量,例如:
- Wilcoxon 符号秩检验
- Kruskal-Wallis 检验
次序统计量在非参数统计中具有不可替代的作用,原因在于它们完全基于样本观测值的大小排序,不依赖于总体的分布形式。这使得次序统计量成为”分布无关”(distribution-free)统计方法的核心。
实际应用举例:
-
极值理论(Extreme Value Theory):研究最大值或最小值的分布规律,在金融风险管理和气象预测中有重要应用。例如,设计防洪堤坝时,需要根据历史最高水位数据预测”千年一遇”的洪水高度,这本质上就是次序统计量的应用。
-
分位数估计:样本分位数本身就是次序统计量的函数。中位数、四分位数、百分位数等都是次序统计量的线性组合。
-
非参数检验:Wilcoxon 符号秩检验基于秩的信息,Kruskal-Wallis 检验比较多个总体的秩次差异。1
分位数估计
样本分位数 定义为满足 的最小值,即:
其中 为上取整函数。
置信区间
利用次序统计量可以构造参数的非参数置信区间(见 区间估计)。
这类方法的重要性在于:它们通常只依赖样本的排序关系,而不依赖具体分布参数形式,因此在模型假设不充分时仍然有效。
示例:均匀分布次序统计量
设 ,则 的密度函数为:
即 。
期望:
相关章节
Footnotes
-
Wikipedia, “Order statistic” 页面,包含更详细的数学推导和应用场景。 ↩