假设检验 (Hypothesis Testing)
基本概念
假设检验(Hypothesis Testing) 是利用样本数据对关于总体的假设进行决策的统计方法。
原假设与备择假设
- 原假设(Null Hypothesis) :待检验的假设,通常表示”无效应”或”无差异”
- 备择假设(Alternative Hypothesis) :与 对立的假设,通常表示我们希望证明的结论
两类错误
| 错误类型 | 含义 | 记号 |
|---|---|---|
| 第一类错误(弃真) | 为真,但我们拒绝了它 | |
| 第二类错误(取伪) | 为假,但我们没有拒绝它 |
显著性水平 :人为设定的第一类错误的上界,通常取 。
威力(Power):,正确拒绝假的原假设的概率。
检验的基本流程
- 建立假设:明确 和
- 选择检验统计量:构造在 下分布已知的统计量
- 确定拒绝域:根据显著性水平 确定拒绝域
- 计算检验统计量的值:代入样本观测值
- 做出决策:若统计量落在拒绝域,则拒绝
值
值(-value) 是在原假设 成立的条件下,观察到比当前样本更极端结果的概率。
决策规则
- 若 ,拒绝
- 若 ,不拒绝
优点
- 值是一个数值,反映了样本数据与 的吻合程度
- 避免了固定显著性水平下的”一刀切”决策
- 值越小,证据越强烈地反对
威力函数
威力函数(Power Function) 定义为在参数为 时拒绝 的概率:
性质:
- 当 时,(第一类错误控制)
- 当 时, 越大越好(第二类错误越小)
威力曲线:以 为横轴, 为纵轴的图像,用于评估检验的性能。
Neyman-Pearson 基本引理
Neyman-Pearson 基本引理(Neyman-Pearson Lemma) 是假设检验理论的基础,给出了最优检验的构造方法。
引理内容
设样本 的密度为 ,考虑简单假设检验:
构造似然比:
则在显著性水平 下,似然比检验:
是最强检验(MP 检验),其中常数 由 决定。
直观理解
似然比越小,说明样本更可能在 下出现,而非 下,因此应拒绝 。
似然比检验
广义似然比检验(Generalized Likelihood Ratio Test, GLRT) 将 Neyman-Pearson 引理推广到复合假设:
其中 为 下的参数空间。
决策规则: 时拒绝 , 由显著性水平决定。
常用假设检验
检验(正态总体方差已知)
单样本 检验:
检验统计量:
双样本 检验:比较两个总体均值是否有差异。
检验(正态总体方差未知)
单样本 检验:
检验统计量:
配对 检验:适用于配对样本。
两独立样本 检验:比较两个正态总体的均值差异。
拟合优度检验
拟合优度检验(Chi-Square Goodness-of-Fit Test) 用于检验样本是否来自某个特定分布。
检验统计量:
其中 为观测频数, 为期望频数, 为类别数。
分布:在 成立且样本量足够大时,,其中 为被估计的参数个数。
示例:检验骰子是否均匀
抛掷骰子 600 次,观测到各面的次数为 ,检验骰子是否均匀。
期望频数:每个面期望出现 次。
自由度:,查表得 。
由于 ,不拒绝 ,即没有显著证据表明骰子不均匀。
检验的比较
| 检验方法 | 适用场景 | 检验统计量分布 |
|---|---|---|
| 检验 | 正态总体, 已知,大样本 | |
| 检验 | 正态总体, 未知,小样本 | |
| 检验 | 分类数据,拟合优度 | |
| 检验 | 两正态总体方差比较 |
检验与置信区间的对偶关系
设参数 的置信水平 的置信区间为 ,则:
- 双侧检验 vs 在水平 下拒绝 ,当且仅当
- 单侧检验 vs 在水平 下拒绝 ,当且仅当