# 假设检验
假设检验也称显著性检验。
目的是确定一个观测到的效果是否是由随机性(random chance)造成的。
- 主要术语
零假设 : 完全归咎于偶然性的假设
备择假设 : 与零假设相反,即实验者希望证实的假设
单向检验 : 在假设检验中,只从一个方向上计数偶然性结果
双向检验 : 在假设检验中,从正反两个方向上计数偶然性结果。
- Why
在构建 A/B 测试时,为什么需要做出一个假设?
为什么不能只是查看实验的结果,然后选择处理结果更好的那一组?
人们在思想上倾向于低估天然随机行为的范围。
- 一个典型的例证就是难 以预料极端事件,黑天鹅事件(参见 2.8 节)
注:
"Black Swan" incidents,指非常难以预测,且不寻常的事件,通常会引起市场连锁负面反应甚至颠覆。
- 一个典型的例证就是难 以预料极端事件,黑天鹅事件(参见 2.8 节)
一般来说,“黑天鹅”事件是指满足以下三个特点的事件:
具有意外性;
产生重大影响;
虽然它具有意外性,但人的本性促使我们在事后为它的发生编造理由,并且或多或少认为它是可解释和可预测的。
黑天鹅存在于各个领域,无论金融市场、商业、经济还是个人生活,都逃不过它的控制。
“灰犀牛”是与“黑天鹅”相互补足的概念,
“灰犀牛事件”是太过于常见以至于人们习以为常的风险,“黑天鹅事件”则是极其罕见的、出乎人们意料的风险。
- 另一个例证是人们倾向于将随机事件曲解为具有某种显著性的模式。
为此,人们提出了统计假设检验方法,目的是使研究人员免受随机性的愚弄。
- 曲解随机性
我们可以发现,人们倾向于在实验中低估随机性。
让一些朋友构想抛 50 次硬币的结果,并写下一系列随机的 H(正面朝上)和 T(反面朝上),
然后,让这些朋友实际去 抛 50 次硬币,并记录结果。
将真正的硬币抛掷结果和人工生成的结果各放一处。
我们很容易看出哪个结果是真实的,因为真实的结果中会出现一组连续的 H 或 T,
在真实的抛 50 次硬币中,常常能看见五六个连续的 H 或 T。
但是,我们大多数人在构想随机抛硬币的结果时,如果已经连续有三四个 H,就会暗示自己,
最好在这里就切换为 T, 这样序列看上去更随机一些。
另外,抛硬币实验也说明了一个问题:
如果的确在现实世界中看到了类似于连续出现 6 个 H 这样的事情,
例如一个标题比另一个标题好 10%,我们倾向于将其归因于真实情况,而非巧合。
在一个设计适当的 A/B 测试中,处理 A 和处理 B 之间任何可观测到的差异,必定是由下面两个因素之一所导致的。
- 分配对象中的随机可能性;
- 处理 A 和处理 B 之间的真实差异。
统计假设检验是对 A/B 测试(或任何随机实验)的进一步分析,
意在评估随机性是否可以合理地解释 A 组和 B 组之间观测到的差异。
# 3.2.1 零假设
假设检验使用的逻辑是,鉴于人们倾向于对异常的随机行为做出反应,并将其解释为有意义的真实行为, 我们要在实验中证明,组间差异要比偶然性可能导致的差异更极端。
这里包含了一个基线假设,即各个处理是等同的,并且组间差异完全是由偶然性所导致的,我们称该基线假设为零假设。
事实上,我们希望能证明零假设是错误的,并证明 A 组 和 B 组结果之间的差异要比偶然性可能导致的差异更大。
一种实现方式是通过重采样置换过程,
对 A 组和 B 组的结果做 随机混洗,并反复将数据分配为规模相近的组,之后查看实验得到的差异与观测差异同样极端的频率。
更多内容参见 3.3 节。
# 3.2.2 备择假设
假设检验本身不仅包括零假设,还包括一个相抵消的备择假设。
- 例子
零假设是“A 组和 B 组的均值间没有差异”,备择假设是“A 不同于 B”(可能更大,也 可能更小)。
零假设是“A ≤ B”,备择假设是“B > A”。
零假设是“B 不会比 A 大 x%”,备择假设是“B 比 A 大 x%”。
总而言之,
零假设和备择假设必须涵盖了所有的可能性。
假设检验的结构取决于零假设的性质。
# 3.2.3 单向假设检验和双向假设检验
A/B 测试通常是根据一个已有的默认选项(比如 A)去测试一个新的选项(比如 B),
并且 假定除非证明 B 明显优于 A,否则我们将坚持使用 A。
在这种情况下,我们需要一个假设检验来免受倾向于 B 的偶然性的欺骗,
我们并不在意在另一个方向上是否会受偶然性的愚弄,因为除非能证明 B 更好,否则我们将坚持 A。
所以,我们需要一种有方向的备择假设(即 B 比 A 好)。
这种情况下,我们可以使用单向(或“单尾”)假设检验。
这意味着极端偶然性只会导致从一个方向上计入 p 值。
如果想要假设检验使我们免受任意方向上偶然性的愚弄,那么备择假设应该是双向的(即 A 不同于 B,它可能更大,或是更小),
在这种情况下,我们要使用双向(或“双尾”)假设。
这意味着极端偶然性导致可以从任意一个方向上计入 p 值。
单向假设检验通常遵循 A/B 决策过程,即需要指定一个选项,并且除非证明另一个选项更好,否则将指定该选项为“默认”的。
然而,包括 R 在内的一些软件的默认输出通常提供的是双向测试,并且许多统计学家为了避免争议,也会选择更为保守的双向测试。
选择单向还是双向,这是一个让人困惑的问题,但是该问题与数据科学的关系并不大。
在数据科学中,p 值的计算精度并非十分重要。
# 本节要点
- 零假设的逻辑理念体现为没有特殊事件发生,任何观察到的效果都是由随机偶然导致的。
- 假设检验假定零假设为真,创建“零模型”(一种概率模型),并检验所观察到的效果是否是该模型的合理结果。
# 拓展阅读
Leonard Mlodinow 撰写的 The Drunkard’s Walk: How Randomness Rules Our Lives
该书综述了“随机性控制我们生活”的方式。David Freedman、Robert Pisani 和 Roger Purves 的经典统计学教材 Statistics(第 4 版)
该书没有采用罗列数学理论的方式,并很好地介绍了大部分统计学内容,其中包括假设检验。Peter Bruce 撰写的 Introductory Statistics and Analytics: A Resampling Perspective 该书从重抽样角度介绍了假设检验的概念。