假设检验 (Hypothesis Testing)

基本概念

假设检验(Hypothesis Testing) 是利用样本数据对关于总体的假设进行决策的统计方法。

原假设与备择假设

  • 原假设(Null Hypothesis) :待检验的假设,通常表示”无效应”或”无差异”
  • 备择假设(Alternative Hypothesis) :与 对立的假设,通常表示我们希望证明的结论

两类错误

错误类型含义记号
第一类错误(弃真) 为真,但我们拒绝了它
第二类错误(取伪) 为假,但我们没有拒绝它

显著性水平 :人为设定的第一类错误的上界,通常取

威力(Power),正确拒绝假的原假设的概率。

检验的基本流程

  1. 建立假设:明确
  2. 选择检验统计量:构造在 下分布已知的统计量
  3. 确定拒绝域:根据显著性水平 确定拒绝域
  4. 计算检验统计量的值:代入样本观测值
  5. 做出决策:若统计量落在拒绝域,则拒绝

值(-value) 是在原假设 成立的条件下,观察到比当前样本更极端结果的概率。

决策规则

  • ,拒绝
  • ,不拒绝

优点

  • 值是一个数值,反映了样本数据与 的吻合程度
  • 避免了固定显著性水平下的”一刀切”决策
  • 值越小,证据越强烈地反对

威力函数

威力函数(Power Function) 定义为在参数为 时拒绝 的概率:

性质

  • 时,(第一类错误控制)
  • 时, 越大越好(第二类错误越小)

威力曲线:以 为横轴, 为纵轴的图像,用于评估检验的性能。

Neyman-Pearson 基本引理

Neyman-Pearson 基本引理(Neyman-Pearson Lemma) 是假设检验理论的基础,给出了最优检验的构造方法。

引理内容

设样本 的密度为 ,考虑简单假设检验:

构造似然比:

则在显著性水平 下,似然比检验

是最强检验(MP 检验),其中常数 决定。

直观理解

似然比越小,说明样本更可能在 下出现,而非 下,因此应拒绝

似然比检验

广义似然比检验(Generalized Likelihood Ratio Test, GLRT) 将 Neyman-Pearson 引理推广到复合假设:

其中 下的参数空间。

决策规则 时拒绝 由显著性水平决定。

常用假设检验

检验(正态总体方差已知)

单样本 检验

检验统计量:

双样本 检验:比较两个总体均值是否有差异。

检验(正态总体方差未知)

单样本 检验

检验统计量:

配对 检验:适用于配对样本。

两独立样本 检验:比较两个正态总体的均值差异。

拟合优度检验

拟合优度检验(Chi-Square Goodness-of-Fit Test) 用于检验样本是否来自某个特定分布。

检验统计量

其中 为观测频数, 为期望频数, 为类别数。

分布:在 成立且样本量足够大时,,其中 为被估计的参数个数。

示例:检验骰子是否均匀

抛掷骰子 600 次,观测到各面的次数为 ,检验骰子是否均匀。

期望频数:每个面期望出现 次。

自由度,查表得

由于 ,不拒绝 ,即没有显著证据表明骰子不均匀。

检验的比较

检验方法适用场景检验统计量分布
检验正态总体, 已知,大样本
检验正态总体, 未知,小样本
检验分类数据,拟合优度
检验两正态总体方差比较

检验与置信区间的对偶关系

设参数 的置信水平 的置信区间为 ,则:

  • 双侧检验 vs 在水平 下拒绝 ,当且仅当
  • 单侧检验 vs 在水平 下拒绝 ,当且仅当

相关章节