假设检验
定义
假设检验 是利用样本数据对关于总体的假设进行决策的统计方法。它的核心思想是:先把要检验的命题写成原假设,再根据样本证据判断是否有足够理由拒绝它。
原假设与备择假设
- 原假设(Null Hypothesis) :待检验的假设,通常表示“无效应”或“无差异”。
- 备择假设(Alternative Hypothesis) :与 对立的假设,通常表示我们希望证明的结论。
在频率学派框架下,检验的目标不是“证明 为真”,而是在预先设定的错误控制标准下,判断样本证据是否足以反对 。1
核心性质
两类错误
| 错误类型 | 含义 | 记号 |
|---|---|---|
| 第一类错误(弃真) | 为真,但我们拒绝了它 | |
| 第二类错误(取伪) | 为假,但我们没有拒绝它 |
显著性水平 :人为设定的第一类错误上界,通常取 、、。它是“在 真实时,仍然错误拒绝它”的长期频率控制目标。
威力(Power):,正确拒绝假的原假设的概率。
显著性水平越小,拒绝 的门槛越严格,第一类错误更容易控制,但通常会增加第二类错误;反之亦然。检验设计本质上是在两类错误之间做权衡。
值与显著性水平 的关系:
- 显著性水平 是在检验之前人为设定的阈值(通常是 0.05 或 0.01),表示”我们愿意容忍的第一类错误概率上限”;
- 值 是在实际观测数据之后计算出来的,表示”在原假设成立的条件下,观测到当前结果或更极端结果的概率”。
决策规则很简单:若 ,拒绝 ;否则不拒绝 。
这里有个重要的哲学区分:不拒绝不等于”接受”。就像法庭审判中的”无罪推定”——证据不足不意味着被告真的无罪,只是说现有证据不足以推翻”无罪假设”。2
Neyman-Pearson 范式的核心思想:假设检验本质上是一个决策问题。在长期重复抽样的框架下,我们需要一个规则来最大化检验的”威力”(正确拒绝假原假设的概率),同时将第一类错误控制在预设水平 以内。这不是关于”某个样本是否支持 “的陈述,而是一套系统性的决策理论。2
值与决策
值(-value) 是在原假设 成立的条件下,观察到“当前样本结果或更极端结果”的概率。
需要特别注意: 值不是“ 为真的概率”,也不是“结论为真的概率”。它只是衡量样本与 的相容程度。
决策规则
- 若 ,拒绝 。
- 若 ,不拒绝 。
这里的“拒绝”表示:在当前显著性水平下,样本证据已经强到足以认为 不太可能成立;而“不拒绝”只表示证据不足,不等于证明 正确。
解释关系
- 是事先设定的决策门槛,控制错误拒真的风险。
- 值 是数据给出的证据强弱,越小表示数据在 下越罕见。
- 最终决策 是把 值与 比较后作出的二元判断。
因此, 值小于 时,不是“偶然性太小”,而是“在 下出现如此极端数据的概率太低”,所以拒绝 更合理。
检验流程
- 建立假设:明确 和 。
- 选择检验统计量:构造在 下分布已知的统计量。
- 确定拒绝域:根据显著性水平 确定拒绝域。
- 计算检验统计量的值:代入样本观测值。
- 做出决策:若统计量落在拒绝域,则拒绝 。
威力函数
威力函数(Power Function) 定义为在参数为 时拒绝 的概率:
性质:
- 当 时,(第一类错误控制)。
- 当 时, 越大越好(第二类错误越小)。
威力曲线:以 为横轴, 为纵轴的图像,用于评估检验的性能。
Neyman-Pearson 引理
Neyman-Pearson 引理 是假设检验理论的基础,给出了最优检验的构造方法。3
引理内容
设样本 的密度为 ,构造似然比:
则在显著性水平 下,似然比检验:
是最强检验(MP 检验),其中常数 由 决定。
直观理解
似然比越小,说明样本更可能在 下出现,而非 下,因此应拒绝 。
似然比检验
广义似然比检验(Generalized Likelihood Ratio Test,GLRT) 将 Neyman-Pearson 引理推广到复合假设:
其中 为 下的参数空间。
决策规则: 时拒绝 , 由显著性水平决定。
常用检验
检验(正态总体方差已知)
单样本 检验:
检验统计量:
双样本 检验:比较两个总体均值是否有差异。
检验(正态总体方差未知)
单样本 检验:
检验统计量:
配对 检验:适用于配对样本。
两独立样本 检验:比较两个正态总体的均值差异。
拟合优度检验
拟合优度检验(Chi-Square Goodness-of-Fit Test) 用于检验样本是否来自某个特定分布。
检验统计量:
其中 为观测频数, 为期望频数, 为类别数。
分布:在 成立且样本量足够大时,,其中 为被估计的参数个数。
示例:检验骰子是否均匀
抛掷骰子 600 次,观测到各面的次数为 ,检验骰子是否均匀。
期望频数:每个面期望出现 次。
自由度:,查表得 。
由于 ,不拒绝 ,即没有显著证据表明骰子不均匀。
检验的比较
| 检验方法 | 适用场景 | 检验统计量分布 |
|---|---|---|
| 检验 | 正态总体, 已知,大样本 | |
| 检验 | 正态总体, 未知,小样本 | |
| 检验 | 分类数据,拟合优度 | |
| 检验 | 两正态总体方差比较 |
检验与置信区间的对偶关系
设参数 的置信水平 的置信区间为 ,则:
- 双侧检验 vs 在水平 下拒绝 ,当且仅当 。
- 单侧检验 vs 在水平 下拒绝 ,当且仅当 。
应用与例子
常见用法
- 医学研究中判断新药是否有效。
- 质量控制中判断产品是否满足标准。
- A/B 测试中判断两种方案是否存在显著差异。
- 分类数据中判断观测分布是否符合理论分布。
相关章节
Footnotes
-
本文关于原假设、备择假设、显著性水平和 值的表述,参考常见数理统计教材与频率学派假设检验框架。 ↩
-
关于假设检验的系统性介绍,可参考 Penn State STAT 415 课程 Lesson 26: Neyman-Pearson Lemma ↩ ↩2
-
Neyman,J.,Pearson,E. S.(1933):《On the Problem of the Most Efficient Tests of Statistical Hypotheses》。 ↩