次序统计量 (Order Statistics)
基本定义
设 为来自总体 的简单随机样本,将它们按从小到大排列:
次序统计量(Order Statistic) 定义为:
特别地:
- :最小值(极小值)
- :最大值(极大值)
- 与 合称极值(Extremes)
常见次序统计量
样本中位数
当 为奇数时,样本中位数为 。
当 为偶数时,样本中位数为中间两个数的平均:
中位数是位置特征的稳健估计,不受极端值影响。
样本极差
样本极差(Sample Range) 定义为:
极差反映了样本的离散程度,但仅利用了最大值和最小值的信息。
-次序统计量
第 个次序统计量 包含了样本中第 小的观测值信息。
单个次序统计量的密度函数
设总体 的概率密度函数为 ,分布函数为 ,则第 个次序统计量 的概率密度函数为:
推导思路: 意味着恰好有 个观测值小于 ,1 个观测值等于 , 个观测值大于 。
极值的密度函数
最小值 的密度函数:
最大值 的密度函数:
联合密度函数
全体次序统计量 的联合密度函数为:
其中 来自 个观测值排列顺序的数目。
注意:联合密度仅在 时非零。
在非参数统计中的应用
次序统计量在非参数统计中有广泛的应用:
顺序统计量秩
样本观测值的**秩(Rank)**定义为:
即 在样本中的排名。秩是许多非参数检验的核心。
秩统计量
基于秩构造的统计量称为秩统计量,例如:
- Wilcoxon 符号秩检验
- Kruskal-Wallis 检验
分位数估计
样本分位数 定义为满足 的最小值,即:
其中 为上取整函数。
置信区间
利用次序统计量可以构造参数的非参数置信区间(见 区间估计)。
示例:均匀分布次序统计量
设 ,则 的密度函数为:
即 。
期望: