# 3.9 卡方检验
通常在 Web 测试中,需要一次检验多个处理,这超出了 A/B 测试的范围。
卡方检验适用于计数数据,它可以检验数据与预期分布的拟合程度。
在统计实践中,卡方统计量的最常见用法是与 r×c 列联表一起使用,
以评估对变量间独立性的零假设是否合理。
卡方检验最初是由卡尔 • 皮尔逊(Karl Pearson)在 1900 年提出的
“卡方”(Chi)一词来 自皮尔逊在文章中使用的希腊字母 ξ。
- 主要术语
卡方统计量
观测数据偏离预期程度的量度
期望值 / 期望
在某种假设(通常是零假设)下,我们期望数据能给出的结果。
d.f.
自由度
# 3.9.1 卡方检验:一种重抽样方法
假设我们要对 1000 名访问者测试三种不同的标题:A、B 和 C,测试结果如表 3-4 所示。
- 表3-4:3种不同标题的Web检验结果
# 3.9.2 卡方检验:统计理论
# 3.9.3 费舍尔精确检验
# 3.9.4 与数据科学的关联
卡方检验的大多数标准用法(以及费舍尔精确检验),与数据科学的联系并不是十分紧密。
在大多数数据科学实验中,无论是 A/B 测试,还是 A/B/C......测试,实验目标并不是要简单地确定统计显著性,而是要给出最佳的处理。
对此,多臂老虎机算法(参见 3.10 节)可以给出更完整的解决方案。
在数据科学中,卡方检验(尤其是费舍尔精确检验)的一个应用是确定适当的 Web 实验样本规模。
在此类实验中,尽管具有大量的页面展示,但是点击率通常很低。过小的计数率可能会导致实验无法得出确定的结论。
这时可以使用费舍尔精确检验、卡方检验等检验方法,计算检验效能和样本规模(参见 3.11 节)。
在科学研究中,一些研究人员广泛地使用了卡方检验,以确定难以捉摸的统计显著性 p 值,进而使自己的研究成果适合发表。
在数据科学的应用中,并不是将卡方检验或类似的重抽样模拟作为正式的显著性检验,
而是更多地将此类检验方法作为一种过滤器,用以确定某个效应或特征是否值得进一步考虑。
例如,此类方法可用于空间统计学和映射中,以确定空间数据是否符合某个指定的零分布,
例如集中在某一区域的犯罪率是否大于随机性 所允许的程度。
此类方法还可以用于机器学习中的自动特征选择,通过判定各个特性的主要类是否符合随机变异的范围,
即是否存在过高或过低的问题,进而确定特性的主要类。
# 本节要点
• 统计学中一个常见的过程是检验观测情况与独立性假设是否一致,
例如购买特定产 品的倾向是否与性别无关。
• 卡方分布是一种加入了独立性假设的参考分布。
由观测情况计算得到的卡方统计量, 必须与卡方分布进行对比。
# 拓展阅读
• 20 世纪初,费舍尔提出了“女士品茶”(Lady Tasting Tea)这一著名的例子。
时至今日,该例子依然简单有效地展示了费舍尔精确检验。在网上搜索“女士品茶”,就能发现一些很好的文章。
• Stat Trek 网站提供了一个很好的卡方检验教程。