假设检验

定义

假设检验 是利用样本数据对关于总体的假设进行决策的统计方法。它的核心思想是:先把要检验的命题写成原假设,再根据样本证据判断是否有足够理由拒绝它。

原假设与备择假设

  • 原假设(Null Hypothesis) :待检验的假设,通常表示“无效应”或“无差异”。
  • 备择假设(Alternative Hypothesis) :与 对立的假设,通常表示我们希望证明的结论。

在频率学派框架下,检验的目标不是“证明 为真”,而是在预先设定的错误控制标准下,判断样本证据是否足以反对 1

核心性质

两类错误

错误类型含义记号
第一类错误(弃真) 为真,但我们拒绝了它
第二类错误(取伪) 为假,但我们没有拒绝它

显著性水平 :人为设定的第一类错误上界,通常取 。它是“在 真实时,仍然错误拒绝它”的长期频率控制目标。

威力(Power),正确拒绝假的原假设的概率。

显著性水平越小,拒绝 的门槛越严格,第一类错误更容易控制,但通常会增加第二类错误;反之亦然。检验设计本质上是在两类错误之间做权衡。

值与显著性水平 的关系

  • 显著性水平 是在检验之前人为设定的阈值(通常是 0.05 或 0.01),表示”我们愿意容忍的第一类错误概率上限”;
  • 是在实际观测数据之后计算出来的,表示”在原假设成立的条件下,观测到当前结果或更极端结果的概率”。

决策规则很简单:若 ,拒绝 ;否则不拒绝

这里有个重要的哲学区分:不拒绝不等于”接受”。就像法庭审判中的”无罪推定”——证据不足不意味着被告真的无罪,只是说现有证据不足以推翻”无罪假设”。2

Neyman-Pearson 范式的核心思想:假设检验本质上是一个决策问题。在长期重复抽样的框架下,我们需要一个规则来最大化检验的”威力”(正确拒绝假原假设的概率),同时将第一类错误控制在预设水平 以内。这不是关于”某个样本是否支持 “的陈述,而是一套系统性的决策理论。2

值与决策

值(-value) 是在原假设 成立的条件下,观察到“当前样本结果或更极端结果”的概率。

需要特别注意: 值不是“ 为真的概率”,也不是“结论为真的概率”。它只是衡量样本与 的相容程度。

决策规则

  • ,拒绝
  • ,不拒绝

这里的“拒绝”表示:在当前显著性水平下,样本证据已经强到足以认为 不太可能成立;而“不拒绝”只表示证据不足,不等于证明 正确。

解释关系

  • 是事先设定的决策门槛,控制错误拒真的风险。
  • 是数据给出的证据强弱,越小表示数据在 下越罕见。
  • 最终决策 是把 值与 比较后作出的二元判断。

因此, 值小于 时,不是“偶然性太小”,而是“在 下出现如此极端数据的概率太低”,所以拒绝 更合理。

检验流程

  1. 建立假设:明确
  2. 选择检验统计量:构造在 下分布已知的统计量。
  3. 确定拒绝域:根据显著性水平 确定拒绝域。
  4. 计算检验统计量的值:代入样本观测值。
  5. 做出决策:若统计量落在拒绝域,则拒绝

威力函数

威力函数(Power Function) 定义为在参数为 时拒绝 的概率:

性质

  • 时,(第一类错误控制)。
  • 时, 越大越好(第二类错误越小)。

威力曲线:以 为横轴, 为纵轴的图像,用于评估检验的性能。

Neyman-Pearson 引理

Neyman-Pearson 引理 是假设检验理论的基础,给出了最优检验的构造方法。3

引理内容

设样本 的密度为 ,构造似然比:

则在显著性水平 下,似然比检验

是最强检验(MP 检验),其中常数 决定。

直观理解

似然比越小,说明样本更可能在 下出现,而非 下,因此应拒绝

似然比检验

广义似然比检验(Generalized Likelihood Ratio Test,GLRT) 将 Neyman-Pearson 引理推广到复合假设:

其中 下的参数空间。

决策规则 时拒绝 由显著性水平决定。

常用检验

检验(正态总体方差已知)

单样本 检验

检验统计量:

双样本 检验:比较两个总体均值是否有差异。

检验(正态总体方差未知)

单样本 检验

检验统计量:

配对 检验:适用于配对样本。

两独立样本 检验:比较两个正态总体的均值差异。

拟合优度检验

拟合优度检验(Chi-Square Goodness-of-Fit Test) 用于检验样本是否来自某个特定分布。

检验统计量

其中 为观测频数, 为期望频数, 为类别数。

分布:在 成立且样本量足够大时,,其中 为被估计的参数个数。

示例:检验骰子是否均匀

抛掷骰子 600 次,观测到各面的次数为 ,检验骰子是否均匀。

期望频数:每个面期望出现 次。

自由度,查表得

由于 ,不拒绝 ,即没有显著证据表明骰子不均匀。

检验的比较

检验方法适用场景检验统计量分布
检验正态总体, 已知,大样本
检验正态总体, 未知,小样本
检验分类数据,拟合优度
检验两正态总体方差比较

检验与置信区间的对偶关系

设参数 的置信水平 的置信区间为 ,则:

  • 双侧检验 vs 在水平 下拒绝 ,当且仅当
  • 单侧检验 vs 在水平 下拒绝 ,当且仅当

应用与例子

常见用法

  • 医学研究中判断新药是否有效。
  • 质量控制中判断产品是否满足标准。
  • A/B 测试中判断两种方案是否存在显著差异。
  • 分类数据中判断观测分布是否符合理论分布。

相关章节

Footnotes

  1. 本文关于原假设、备择假设、显著性水平和 值的表述,参考常见数理统计教材与频率学派假设检验框架。

  2. 关于假设检验的系统性介绍,可参考 Penn State STAT 415 课程 Lesson 26: Neyman-Pearson Lemma 2

  3. Neyman,J.,Pearson,E. S.(1933):《On the Problem of the Most Efficient Tests of Statistical Hypotheses》。