# 3.6 多重检验
统计学中有一句话:“如果拷问数据的时间足够长,那么它迟早会 招供。” 这意味着,如果我们能从足够多的视角去观察数据,并提出足够多的问题,几乎总是可以发现具有统计显著性的效果。
- 主要术语
第一类错误
错误地得出一个效果是统计显著的结论。
错误发现率
在多重检验中,犯第一类错误的比率。
p 值校正
用于在同一数据上做多重检验。
过拟合
拟合了噪声。
- 例如
给定随机生成的 20 个预测变量和一个结果变量,如果进行一组 20 次 α = 0.05 水平的显著性检验,
那么很可能至少有一个预测因子会(错误地)显示为统计显著的,这被称为第一类错误。
在计算第一类错误的概率时,可以首先计算在 0.05 水平上所有预测因子将被正确检验为非统计显著的概率。
在本例中,
一个预测因子被正确地检验为非统计显著的概率是 0.95,那么全部 20 个预测因子被正确地检验为非统计显著的概率,
就是 0.95×0.95×0.95×...,即0.95的20次方= 0.36。
至少一个预测因子将被错误地验证为显著的概率,就是 1 减去所有预测因子都是非统计显著的概率等于 0.64。
上面介绍的问题涉及数据挖掘中的过拟合问题,即“模型拟合了噪声”。
如果我们添加的变量越多,或者运行的模型越多,那么偶然出现“统计显著性”的概率就会越大。
在有监督学习任务中,会给出一个验证集,让模型评估从未见过的数据,从而降低了风险,
在没有已标记验证集的统计学习和机器学习任务中,仍然存在由统计噪声得出结论的风险。
统计学提供了一些过程,可以在一些特定的场景下解决这个问题。
例如,在比较多个处 理组的结果时,我们可以提出多个问题。
例如,
对于处理 A、B 和 C,我们可以提出如下问题:
• A是否不同于B? • B是否不同于C? • A是否不同于C?
另一个例子,
在临床试验中,我们可能想要在多个阶段查看某种治疗的效果。
在每个阶段,我们都可以提出多个问题,每个问题都会增加被随机性愚弄的可能性。
为了解决这一问题,统计学给出了一种**校正(adjustment)**过程。
相比于单一假设检验所设置的统计显著性界限,校正过程设置了更严格的统计显著性界限。
校正过程通常涉及根据校正校正检验 的次数“划分 α 值”。
这导致了对每次检验使用较小的 α 值,即对于统计显著性更严格的界限。
Bonferroni 校正 就是这样的一种过程,它仅是将 α 值除以观测次数 n。
然而,多重比较问题超出了上面列举的这些高度结构化的案例,它与反复 “数据疏浚” (dredging)现象 有关。
这一现象催生了“拷问数据”的谚语。
也就是说,给定一组足够复杂的数据,如果你没有从中找到感兴趣的内容,那么说明你根本就没有尽力去查看数据。
现在,可供使用的数据达到了前所未有的规模,在 2002 年至 2010 年期间,发表的论文数也近乎翻了一番。
这为在数据中发现有意义的内容提供了很多偶然性,其中包括下列多重性问题。
如何两两成对地查看多个组间的差异情况
对于以各种方式构建的数据子集,如何查看结果,例如,“我们并未在总体中发现显著的处理效果,但在 30 岁以下的未婚女性这一子集中,发现了显著的处理效果”。
如何尝试使用多种统计模型
如何在模型中加入多个变量
如何询问多个不同的问题,即不同的可能结果
- 错误发现率
错误发现率这一术语,最初用于描述一组给定的假设检验错误地识别显著效果的比率。 随着基因组研究的发展,错误发现率变得愈发有用。
在基因测序项目中,会进行大量的统计检验。
在这些情况中,错误发现率可以用在检验协议中,而单个错误“发现”是指假设检验的结果(例如,在两个样本之间)。
研究人员也寻求通过设置检验过程的参数去控制一定水平的错误发现率。 错误发现率也适用于数据挖掘的分类场景中,其中的错误发现是指对单个记录的错误标记,特别是将 0 误标记为 1(参见 5.4.2 节)。
出于多种原因,尤其包括“多重性”这一常见问题,更多的研究并不一定意味着更好的研究。 2011 年,拜耳制药公司试图对 67 项科学研究进行复现时,发现只能完全复现其中的 14 项。有近三分之二的研究根本无法复现。
在任何情况下,针对高度定义和结构化的统计检验的校正过程过于特定,也不够灵活,因此通常并不适用于数据科学家。
就多重性问题而言,数据科学家的底线做法如下:
- 对于预测建模
可以通过交叉验证(参见 4.2.3 节)和使用验证集降低得到虚假模型的风险。
虚假模型的效能在很大程度上是随机性的结果。 - 对于其他过程
如果没有已标记的验证集可以验证模型,那么必须依赖如下原则。
应意识到对数据的查询和操作越多,随机性可能发挥的作用就更大。
使用重抽样和模拟等启发式方法,为随机性提供基准测试。这样就可以将观察到的结果与基准测试进行比较。
# 本节要点
- 在研究工作或数据挖掘项目中,多重性(多重比较、多变量、多模型等)增加了仅根据随机对某个结果得出显著性结论的风险。
- 对于涉及多重统计比较的情况(即显著性的多重检验),可以使用统计校正过程。
- 在数据挖掘中使用结果变量带标记的验证样本,有助于避免得到误导性的结果。
# 拓展阅读
- David Lane 的在线统计教程中简要介绍了如何使用 Dunnett 检验校正多重比较。
- Megan Goldman 对 Bonferroni 校 正 做 了 更 详 细 的 解 释,
参 见 http://www.stat.berkeley.edu/~mgoldman/Section0402.pdf。 - 要深入了解如何使用更灵活的统计过程调整 p 值
推荐阅读 Peter Westfall 和 StanleyYoung 合著的 Resampling-Based Multiple Testing 一书。 - 于数据分区和在预测建模中使用验证样本的讨论
请参阅 Galit Shmueli、Peter Bruce和 Nitin Patel 合著的 Data Mining for Business Analytics 一书的第 2 章。