假设检验

定义

假设检验 是利用样本数据对关于总体的假设进行决策的统计方法。它的核心思想是：先把要检验的命题写成原假设，再根据样本证据判断是否有足够理由拒绝它。

原假设与备择假设

原假设（Null Hypothesis） $H_{0}$ ：待检验的假设，通常表示“无效应”或“无差异”。
备择假设（Alternative Hypothesis） $H_{1}$ ：与 $H_{0}$ 对立的假设，通常表示我们希望证明的结论。

在频率学派框架下，检验的目标不是“证明 $H_{0}$ 为真”，而是在预先设定的错误控制标准下，判断样本证据是否足以反对 $H_{0}$ 。¹

核心性质

两类错误

错误类型	含义	记号
第一类错误（弃真）	$H_{0}$ 为真，但我们拒绝了它	$P (reject H_{0} ∣ H_{0} true) = α$
第二类错误（取伪）	$H_{0}$ 为假，但我们没有拒绝它	$P (accept H_{0} ∣ H_{0} false) = β$

显著性水平 $α$ ：人为设定的第一类错误上界，通常取 $0.01$ 、 $0.05$ 、 $0.10$ 。它是“在 $H_{0}$ 真实时，仍然错误拒绝它”的长期频率控制目标。

威力（Power）： $1 - β$ ，正确拒绝假的原假设的概率。

显著性水平越小，拒绝 $H_{0}$ 的门槛越严格，第一类错误更容易控制，但通常会增加第二类错误；反之亦然。检验设计本质上是在两类错误之间做权衡。

$p$ 值与显著性水平 $α$ 的关系：

显著性水平 $α$ 是在检验之前人为设定的阈值（通常是 0.05 或 0.01），表示”我们愿意容忍的第一类错误概率上限”；
$p$ 值 是在实际观测数据之后计算出来的，表示”在原假设成立的条件下，观测到当前结果或更极端结果的概率”。

决策规则很简单：若 $p \leq α$ ，拒绝 $H_{0}$ ；否则不拒绝 $H_{0}$ 。

这里有个重要的哲学区分：不拒绝不等于”接受”。就像法庭审判中的”无罪推定”——证据不足不意味着被告真的无罪，只是说现有证据不足以推翻”无罪假设”。²

Neyman-Pearson 范式的核心思想：假设检验本质上是一个决策问题。在长期重复抽样的框架下，我们需要一个规则来最大化检验的”威力”（正确拒绝假原假设的概率），同时将第一类错误控制在预设水平 $α$ 以内。这不是关于”某个样本是否支持 $H_{0}$ “的陈述，而是一套系统性的决策理论。²

$p$ 值与决策

$p$ 值（ $p$ -value） 是在原假设 $H_{0}$ 成立的条件下，观察到“当前样本结果或更极端结果”的概率。

需要特别注意： $p$ 值不是“ $H_{0}$ 为真的概率”，也不是“结论为真的概率”。它只是衡量样本与 $H_{0}$ 的相容程度。

决策规则

若 $p \leq α$ ，拒绝 $H_{0}$ 。
若 $p > α$ ，不拒绝 $H_{0}$ 。

这里的“拒绝”表示：在当前显著性水平下，样本证据已经强到足以认为 $H_{0}$ 不太可能成立；而“不拒绝”只表示证据不足，不等于证明 $H_{0}$ 正确。

解释关系

$α$ 是事先设定的决策门槛，控制错误拒真的风险。
$p$ 值 是数据给出的证据强弱，越小表示数据在 $H_{0}$ 下越罕见。
最终决策 是把 $p$ 值与 $α$ 比较后作出的二元判断。

因此， $p$ 值小于 $α$ 时，不是“偶然性太小”，而是“在 $H_{0}$ 下出现如此极端数据的概率太低”，所以拒绝 $H_{0}$ 更合理。

检验流程

建立假设：明确 $H_{0}$ 和 $H_{1}$ 。
选择检验统计量：构造在 $H_{0}$ 下分布已知的统计量。
确定拒绝域：根据显著性水平 $α$ 确定拒绝域。
计算检验统计量的值：代入样本观测值。
做出决策：若统计量落在拒绝域，则拒绝 $H_{0}$ 。

威力函数

威力函数（Power Function） $β (θ)$ 定义为在参数为 $θ$ 时拒绝 $H_{0}$ 的概率：

β (θ) = P_{θ} (reject H_{0})

性质：

当 $θ \in H_{0}$ 时， $β (θ) \leq α$ （第一类错误控制）。
当 $θ \in H_{1}$ 时， $β (θ)$ 越大越好（第二类错误越小）。

威力曲线：以 $θ$ 为横轴， $β (θ)$ 为纵轴的图像，用于评估检验的性能。

Neyman-Pearson 引理

Neyman-Pearson 引理 是假设检验理论的基础，给出了最优检验的构造方法。³

引理内容

H_{0} : θ = θ_{0} vs H_{1} : θ = θ_{1}

设样本 $X = (X_{1}, \dots, X_{n})$ 的密度为 $f (x; θ)$ ，构造似然比：

Λ (x) = \frac{L ( θ _{0} ; x )}{L ( θ _{1} ; x )} = \frac{f ( x ; θ _{0} )}{f ( x ; θ _{1} )}

则在显著性水平 $α$ 下，似然比检验：

Λ (x) \leq c \Rightarrow 拒绝 H_{0}

是最强检验（MP 检验），其中常数 $c$ 由 $α$ 决定。

直观理解

似然比越小，说明样本更可能在 $H_{1}$ 下出现，而非 $H_{0}$ 下，因此应拒绝 $H_{0}$ 。

似然比检验

广义似然比检验（Generalized Likelihood Ratio Test，GLRT） 将 Neyman-Pearson 引理推广到复合假设：

Λ (x) = \frac{sup _{θ \in Θ_{0}} L ( θ ; x )}{sup _{θ \in Θ} L ( θ ; x )}

其中 $Θ_{0}$ 为 $H_{0}$ 下的参数空间。

决策规则： $Λ (x) \leq λ$ 时拒绝 $H_{0}$ ， $λ$ 由显著性水平决定。

常用检验

$Z$ 检验（正态总体方差已知）

单样本 $Z$ 检验：

H_{0} : μ = μ_{0} vs H_{1} : μ \neq = μ_{0}

检验统计量：

Z = \frac{X ˉ - μ _{0}}{σ / n} \sim N (0, 1) (当 H_{0} 成立)

双样本 $Z$ 检验：比较两个总体均值是否有差异。

$t$ 检验（正态总体方差未知）

单样本 $t$ 检验：

H_{0} : μ = μ_{0} vs H_{1} : μ \neq = μ_{0}

检验统计量：

t = \frac{X ˉ - μ _{0}}{S / n} \sim t (n - 1)

配对 $t$ 检验：适用于配对样本。

两独立样本 $t$ 检验：比较两个正态总体的均值差异。

$χ^{2}$ 拟合优度检验

$χ^{2}$ 拟合优度检验（Chi-Square Goodness-of-Fit Test） 用于检验样本是否来自某个特定分布。

检验统计量：

χ^{2} = i = 1 \sum k \frac{( O _{i} - E _{i} ) ^{2}}{E _{i}}

其中 $O_{i}$ 为观测频数， $E_{i}$ 为期望频数， $k$ 为类别数。

分布：在 $H_{0}$ 成立且样本量足够大时， $χ^{2} \sim χ^{2} (k - 1 - m)$ ，其中 $m$ 为被估计的参数个数。

示例：检验骰子是否均匀

抛掷骰子 600 次，观测到各面的次数为 $(95, 100, 110, 105, 90, 100)$ ，检验骰子是否均匀。

期望频数：每个面期望出现 $600/6 = 100$ 次。

χ^{2} = \frac{( 95 - 100 ) ^{2}}{100} + \frac{( 100 - 100 ) ^{2}}{100} + \dots + \frac{( 100 - 100 ) ^{2}}{100} = 2.5

自由度： $6 - 1 = 5$ ，查表得 $χ_{0.05}^{2} (5) = 11.07$ 。

由于 $2.5 < 11.07$ ，不拒绝 $H_{0}$ ，即没有显著证据表明骰子不均匀。

检验的比较

检验方法	适用场景	检验统计量分布
$Z$ 检验	正态总体， $σ^{2}$ 已知，大样本	$N (0, 1)$
$t$ 检验	正态总体， $σ^{2}$ 未知，小样本	$t (n - 1)$
$χ^{2}$ 检验	分类数据，拟合优度	$χ^{2} (k - 1 - m)$
$F$ 检验	两正态总体方差比较	$F (n_{1} - 1, n_{2} - 1)$

检验与置信区间的对偶关系

设参数 $θ$ 的置信水平 $1 - α$ 的置信区间为 $(T_{1}, T_{2})$ ，则：

双侧检验 $H_{0} : θ = θ_{0}$ vs $H_{1} : θ \neq = θ_{0}$ 在水平 $α$ 下拒绝 $H_{0}$ ，当且仅当 $θ_{0} \in / (T_{1}, T_{2})$ 。
单侧检验 $H_{0} : θ \leq θ_{0}$ vs $H_{1} : θ > θ_{0}$ 在水平 $α$ 下拒绝 $H_{0}$ ，当且仅当 $θ_{0} < T_{1}$ 。

应用与例子

常见用法

医学研究中判断新药是否有效。
质量控制中判断产品是否满足标准。
A/B 测试中判断两种方案是否存在显著差异。
分类数据中判断观测分布是否符合理论分布。

Metaphor

探索

假设检验

假设检验

定义

原假设与备择假设

核心性质

两类错误

$p$ 值与决策

决策规则

解释关系

检验流程

威力函数

Neyman-Pearson 引理

引理内容

直观理解

似然比检验

常用检验

$Z$ 检验（正态总体方差已知）

$t$ 检验（正态总体方差未知）

$χ^{2}$ 拟合优度检验

示例：检验骰子是否均匀

检验的比较

检验与置信区间的对偶关系

应用与例子

常见用法

相关章节

关系图谱

目录

反向链接

Metaphor

探索

假设检验

假设检验

定义

原假设与备择假设

核心性质

两类错误

p 值与决策

决策规则

解释关系

检验流程

威力函数

Neyman-Pearson 引理

引理内容

直观理解

似然比检验

常用检验

Z 检验（正态总体方差已知）

t 检验（正态总体方差未知）

χ2 拟合优度检验

示例：检验骰子是否均匀

检验的比较

检验与置信区间的对偶关系

应用与例子

常见用法

相关章节

Footnotes

关系图谱

目录

反向链接

$p$ 值与决策

$Z$ 检验（正态总体方差已知）

$t$ 检验（正态总体方差未知）

$χ^{2}$ 拟合优度检验