# 3.4 统计显著性和p值

统计学家引入了统计显著性的概念,
用于衡量一个实验(也可以是对已有数据的研究)所生成的结果,是否会比随机情况下可能给出的结果更极端。
如果生成的结果超出了随机变异的范围,则我们称它是统计显著的。

  • 主要术语

p值 :对于一个加入了零假设的偶然性模型,p 值指得到与观测结果一样不寻常或极端 的结果的概率。
α值 : 在实际结果的确是统计显著的情况下,α 值指偶然性结果必须超出的“不寻常性” 概率的阈值。

第一类错误 : 错误地将一个由随机导致的效果归结为真。
第二类错误 : 错误地将一个为真的效果归结为由随机导致的。

  • 以表 3-2 为例
结果 价格A 价格B
点击转化为购买 200 182
点击未转化为购买 23 539 22 406

价格 A 的转化情况比价格 B 好近乎 5%,(0.8425% 对比 0.8057%,差异为 0.0368%)

当业务量很大时,这一差异就会具有显著的意义。
一个有超过 4.5 万条数据的集合,完全可以被视为“大数据”,没有必要做统计显著性检验统计显著性检验主要针对的是小规模样本中的抽样变异性

不过我们也能看到,此例中的转化率非常低,
甚至小于 1%,以至于实际有意义的值(即转化)只有数百个,事实上,所需的样本规模取决于转化率

我们可以使用重抽样,检验价格 A 与价格 B 之间的转化差异是否位于随机变异的范围内。

这里所说的随机变异(chance variation)
是指在概率模型中加入“两者在转换率上不存在差异” 这一零假设后,由模型生成的随机变异性(参见 3.2.1 节)

下面我们给出一个置换过程, 该过程的目的是要回答如下问题:
“如果两种价格具有相同的转换率,那么随机变异的方 差能否产生 5% 的差异?”

(1) 将所有的样本结果置于同一个桶中,同一个桶表示假定两种价格具有相同的转换率
在本例中,我们有 200 + 182 = 382 个 1,23539 + 22406 = 45945 个 0,
这样转换率为 382/ (45945 + 382) = 0.008246 = 0.8246%。
(2) 在桶中做随机混洗
并从中抽出规模为 23 739(与价格 A 的 n 值相同)的重抽样,记 录抽样中 1 的个数。
(3) 记录桶中余下 22 588(与价格 B 的 n 值相同)个数据点中 1 的个数。
(4) 记录两者中 1 的比例在百分位数上的差异。
(5) 重复第 2 步到第 4 步多次。
(6) 计算其中差异大于或等于 0.0368% 的频数。

下面,我们再次使用 3.3.2 节中定义的函数 perm_fun,创建随机置换转换率差异的直方图。

  • 价格 A 和价格 B 的转换率差异的频数分布

图中显示的直方图是 1000 次重抽样的结果,在本例中,我们观察到的差异 0.0368 落在随机差异的范围内。

# 3.4.1 p值

在衡量统计显著性时,简单地查看绘图并不是一个非常精确的方法,人们更关注的是 p 值。

p 值表示随机模型生成的结果比观测结果更极端的频数

在估计置换检验的 p 值时,我们可以采用置换检验中生成大于或等于观测差异值的检验次数所占的比例。

结果显示 p 值为 0.308,这意味着随机性给出的差异,有望在约 30% 的情况下大于或等于观察差异 (此处 p 值的计算具有随机性,因此在实际运行示例程序时,给出的 p 值可能是一个与本例输出近似的值。——译者注)

在本例中,我们不需要使用置换检验也可以获得 p 值,根据二项分布,我们可以使用正态 分布近似估计 p 值。

在使用 R 语言编程时,函数 prop.test 执行该操作,

> prop.test(x=c(200,182), n=c(23739,22588), alternative="greater")
	2-sample test for equality of proportions with continuity correction

data:  c(200, 182) out of c(23739, 22588)
X-squared = 0.14893, df = 1, p-value = 0.3498
alternative hypothesis: greater
95 percent confidence interval:
 -0.001057439  1.000000000
sample estimates:
     prop 1      prop 2
0.008424955 0.008057376

在函数的输出中,参数 x 表示各组的成功次数,参数 n 是试验次数。
我们可以看到,由正 态近似所生成的 p 值为 0.3498,接近于使用置换检验所得到的 p 值。

# 3.4.2 α值

完全根据研究人员的判断力去确定一个结果是否“太不寻常”因而是偶然的,统计学家无疑会对此做法大皱眉头。

在统计学家看来,正确的做法是提前设定一个阈值 例如“超过 随机(零假设)结果 5%”,这样的阈值被称为 α 值,α 值的常见取值是 5% 和 1%。

  • α 值的 选取具有一定的随意性

该过程无法确保在 x% 的情况下做出正确的决策。
原因在于我们要回答的概率问题并不是“随机发生的概率是多少”,而是 “给定一个随机模型,出现极端结果的概率是多少”。 这样我们 需要对随机模型的适当性进行逆推,但是在判断过程中没有任何可依据的概率。
这个问题一直困扰着统计学家。

  • p值的意义

近年来,对 p 值的使用一直存在着相当大的争,一份心理学期刊甚至“禁止”在其收到的论文中使用 p 值。
理由是如果只根据 p 值做出论文可以出版的决定,那么会导致一些质量不好的研究得以发表。

有太多的研究人员只是大概了解 p 值的真正含义,就根据数据和各种可能的假设开展检验,
直到找出一种可以生成显著 p 值的组合,由此撰写出一篇适合发表的论文。

真正的问题在于

我们希望 p 值能包含更多的意义,并且希望 p 值能够表达如下信息。

  1. 结果由随机所导致的概率,
  2. 而且我们希望该值越低越好
    这样就可以得出某一假设得到证明的结论。这也是不少期刊编辑对 p 值的解释。

但 p 值实际所表示的是如下含义。 给定一个随机模型,模型所给出的结果与观测结果同样极端的概率。这两者之间的差异并不明显,但的确存在。

显著的 p 值并非如看上去那样,它并不能引导我们沿着一条似乎正确的“证明”道路走下去。
如果我们理解了 p 值的真正含义,那么就此得出“统计显著”结论的逻辑基础是不太稳固的。

2016 年 3 月,美国统计协会(ASA)在经过内部审议后,发表了一份关于 p 值使用的警告性声明,其中揭示了人们对 p 值的误解程度。

美国统计协会的声明指出了针对研究人员和期刊编辑的六项原则。
(1) p 值可以表示数据与指定统计模型间的不兼容程度。
(2) p 值并不能测量所研究的假设为真的概率,也不测量仅通过随机性生成数据的概率。
(3) 不应仅根据 p 值是否超过了给定的阈值,就得出一个科学结论,或做出一个商业或政策决定。
(4) 正确的推断需要具有全面的报告和完全的透明度。
(5) p 值(或统计显著性)并不测量效果的规模,也不测量结果的重要性。
(6) p 值本身并不能提供一种对模型或假设的很好量度。

# 3.4.3 第一类错误和第二类错误

第一类错误 :错误地将仅由随机性导致的效果判定为真。 第二类错误 :错误地将实际为真的效果判定为假的(即由随机性导致的)。

事实上,第二类错误并不是一种错误,它是由于判断样本的规模过小,而无法检测到效果。
如果 p 值不足以表明统计显著性(例如,超过 5%),我们应称其为“效果未验证”。
增大样本的规模,可能会生成较小的 p 值

显著性检验(即假设检验)的基本功能就是防止我们被随机性愚弄。
因此,我们通常可以通过构造显著性检验去最小化第一类错误。

# 3.4.4 数据科学与p值

数据科学家所做的工作一般并不会发表在科学期刊上,因此对 p 值意义的辩论是颇具学术性的。

如果数据科学家想知道一个看上去有意义并且有用的模型结果是否落在随机变异的范围内,p 值是一种有用的指标。

作为一种在实验中使用的决策工具,p 值不应被视为一种决定性的因素,而应被视为是另一种可以辅助决策的信息。
例如,有时可以将 p 值作为一些统计学或机器学习模型的中间输入值,根据 p 值决定一个特征应该包含在模型中,还是应该从模型中排除。

# 本节要点

  1. 显著性检验可以用于确定观测到的效果是否落在零假设模型的随机变异范围内。
  2. 给定一个零假设模型
    p 值表示模型所生成的结果与观测到的结果同样极端的概率。
  3. α 值是零假设随机模型“不寻常性”的阈值。
  4. 相对于数据科学而言
    显著性检验在正式的研究报告中更加重要。
    但是近年来,即便是对于研究报告,p 值的重要性也一直在下降。

# 拓展阅读

Stephen Stigler 的论文“Fisher and the 5% Level” 对 Ronald Fisher 1925 年出版的 Statistical Methods for Research Workers 一书做了综述
其中重点关注了 5% 的显著性水平。