次序统计量

定义

设 $X_{1}, X_{2}, \dots, X_{n}$ 为来自总体 $F (x)$ 的简单随机样本，将它们按从小到大排列：

X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)}

次序统计量（Order Statistic） 定义为：

X_{(k)} = 第 k 小的观测值

特别地：

$X_{(1)} = min (X_{1}, \dots, X_{n})$ ：最小值（极小值）
$X_{(n)} = max (X_{1}, \dots, X_{n})$ ：最大值（极大值）
$X_{(1)}$ 与 $X_{(n)}$ 合称极值（Extremes）

次序统计量把“样本中的值”转换为“样本中的位置信息”，因此它不仅描述数值大小，还直接刻画分布尾部、分位数和稳健中心位置。对于非参数统计来说，这一点尤其重要，因为很多方法不依赖具体分布形式，而是依赖样本的相对次序；也就是说，次序统计量提供了一种对分布形状假设更弱、对极端值更不敏感的分析框架。

常见次序统计量

样本中位数

当 $n$ 为奇数时，样本中位数为 $X_{((n + 1) /2)}$ 。

当 $n$ 为偶数时，样本中位数为中间两个数的平均：

Median = \frac{X _{(n /2)} + X _{(n /2 + 1)}}{2}

中位数是位置特征的稳健估计，不受极端值影响。

样本极差

样本极差（Sample Range） 定义为：

R = X_{(n)} - X_{(1)} = max (X_{i}) - min (X_{i})

极差反映了样本的离散程度，但仅利用了最大值和最小值的信息。

$k$ -次序统计量

第 $k$ 个次序统计量 $X_{(k)}$ 包含了样本中第 $k$ 小的观测值信息。

密度函数推导

设总体 $X$ 的概率密度函数为 $f (x)$ ，分布函数为 $F (x)$ ，则第 $k$ 个次序统计量 $X_{(k)}$ 的概率密度函数为：

f_{X_{(k)}} (x) = \frac{n !}{( k - 1 )! ( n - k )!} [F (x)]^{k - 1} [1 - F (x)]^{n - k} f (x)

推导思路： $X_{(k)} = x$ 意味着恰好有 $k - 1$ 个观测值小于 $x$ ，1 个观测值等于 $x$ ， $n - k$ 个观测值大于 $x$ 。

该式表明，次序统计量的分布由“左侧样本个数、右侧样本个数、局部密度”三部分共同决定，因此它天然反映了分位点附近的局部概率结构。

极值的密度函数

最小值 $X_{(1)}$ 的密度函数：

f_{X_{(1)}} (x) = n [1 - F (x)]^{n - 1} f (x)

最大值 $X_{(n)}$ 的密度函数：

f_{X_{(n)}} (x) = n [F (x)]^{n - 1} f (x)

联合密度函数

全体次序统计量 $(X_{(1)}, X_{(2)}, \dots, X_{(n)})$ 的联合密度函数为：

f_{X_{(1)}, \dots, X_{(n)}} (x_{1}, \dots, x_{n}) = n! i = 1 \prod n f (x_{i}), x_{1} < x_{2} < \dots < x_{n}

其中 $n!$ 来自 $n$ 个观测值排列顺序的数目。

注意：联合密度仅在 $x_{1} < x_{2} < \dots < x_{n}$ 时非零。

应用

次序统计量在非参数统计中有广泛的应用。原因在于，非参数方法往往不试图完整刻画总体分布，而是利用样本顺序、秩和分位数等“分布无关”的信息来做推断；次序统计量正是这些方法的基础对象。它们既能用于稳健描述中心位置，也能用于构造区间估计、秩检验和分位数估计，因此在无法合理假设正态分布、或数据含有离群点时尤其有价值。

顺序统计量秩

样本观测值的**秩（Rank）**定义为：

R_{i} = j = 1 \sum n 1_{{X_{j} \leq X_{i}}}

即 $X_{i}$ 在样本中的排名。秩是许多非参数检验的核心。

秩统计量

基于秩构造的统计量称为秩统计量，例如：

Wilcoxon 符号秩检验
Kruskal-Wallis 检验

次序统计量在非参数统计中具有不可替代的作用，原因在于它们完全基于样本观测值的大小排序，不依赖于总体的分布形式。这使得次序统计量成为”分布无关”（distribution-free）统计方法的核心。

实际应用举例：

极值理论（Extreme Value Theory）：研究最大值或最小值的分布规律，在金融风险管理和气象预测中有重要应用。例如，设计防洪堤坝时，需要根据历史最高水位数据预测”千年一遇”的洪水高度，这本质上就是次序统计量的应用。
分位数估计：样本分位数本身就是次序统计量的函数。中位数、四分位数、百分位数等都是次序统计量的线性组合。
非参数检验：Wilcoxon 符号秩检验基于秩的信息，Kruskal-Wallis 检验比较多个总体的秩次差异。¹

分位数估计

样本分位数 $\overset{x}{^}_{p}$ 定义为满足 $F_{n} (\overset{x}{^}_{p}) \geq p$ 的最小值，即：

\overset{x}{^}_{p} = X_{(⌈ n p ⌉)}

其中 $⌈ \cdot ⌉$ 为上取整函数。

置信区间

利用次序统计量可以构造参数的非参数置信区间（见区间估计）。
这类方法的重要性在于：它们通常只依赖样本的排序关系，而不依赖具体分布参数形式，因此在模型假设不充分时仍然有效。

示例：均匀分布次序统计量

设 $X_{1}, \dots, X_{n} \sim U (0, 1)$ ，则 $X_{(k)}$ 的密度函数为：

f_{X_{(k)}} (x) = \frac{n !}{( k - 1 )! ( n - k )!} x^{k - 1} (1 - x)^{n - k}, 0 < x < 1

即 $X_{(k)} \sim Beta (k, n - k + 1)$ 。

期望：

E [X_{(k)}] = \frac{k}{n + 1}

Metaphor

探索

次序统计量

次序统计量

定义

常见次序统计量

样本中位数

样本极差

$k$ -次序统计量

密度函数推导

极值的密度函数

联合密度函数

应用

顺序统计量秩

秩统计量

分位数估计

置信区间

示例：均匀分布次序统计量

相关章节

关系图谱

目录

反向链接

Metaphor

探索

次序统计量

次序统计量

定义

常见次序统计量

样本中位数

样本极差

k-次序统计量

密度函数推导

极值的密度函数

联合密度函数

应用

顺序统计量秩

秩统计量

分位数估计

置信区间

示例：均匀分布次序统计量

相关章节

Footnotes

关系图谱

目录

反向链接

$k$ -次序统计量