# 3.5 t 检验

显著性检验具有多种类型
具体取决于数据集是计数数据还是测量数据、所具有的样本数量以及测量的具体内容。

t 检验是其中一种十分常用的检验,其命名源于最初由 W. S. Gossett 提出的学生 t 分布。
t 分布用于估计单个样本均值的分布情况(参见 2.8 节)。

  • 主要术语

检验统计量 : 对我们所关注的差异或效果的度量。
t 统计量 : 归一化的检验统计量
t 分布 : 一种用于比较所观测到的 t 统计量的参考分布,对于 t 检验,参考分布是从零假设生成的

所有的显著性检验都要求指定一个检验统计量去测量所关注的效果,并确定观测到的效果 是否落在随机变异的范围内。
重抽样检验(参见 3.3.1 节对置换的介绍)中,数据的规模并不是十分重要
我们从数据本身创建参考(零假设)分布,并据此使用检验统计量。

统计假设检验形成于 20 世纪 20 年代和 30 年代,当时无法做到对数据随机混洗数千次,以用于重抽样检验。

但是统计学家发现,t 检验很好地近似了置换(随机混洗)分布,t 检验基于格赛特提出的 t 分布,
可以在十分常见的两个样本的比较(即 A/B 测试)中使用,只要样本中的数据是数值型的

但是在使用 t 分布时,为了排除规模因素的影响,必须对检验统计量做归一化处理

经典的统计学教材在介绍 t 检验时,会列出多个公式,其中包含了格赛特提出的 t 分布。 还会介绍如何对数据做归一化,以便与标准 t 分布做比较。

但是在本书中,我们并不会给出这些公式,因为这些公式已经包含在 R 和 Python 等统计软件的常用命令中。

在 R 语言 中,我们可以使用函数 t.test。

t.test(Time ~ Page, data=session_times, alternative='less' )
Welch Two Sample t-test
data: Time by Page
t = -1.0983, df = 27.693, p-value = 0.1408
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval: -Inf 19.59674
     sample estimates:
     mean in group Page A mean in group Page B
126.3333 162.0000

其中的备择假设是页面 A 会话时间的均值小于页面 B 的,给出的 p 值非常接近置换检验的 p 值 0.124,参见 3.3.2 节。

我们可以使用重抽样,构造出一个能够反映观测数据和要检验的假设的解决方案,而无须关心数据是数值型还是二元的,
样本的规模是否平衡,以及样本方差等因素。

如果使用统计学公式,很多变异性可以表示为公式形式,但是这些公式可能会令人困惑。

统计学家需要依靠公式去探索问题并按图索骥,但是数据科学家并不需要这样做。
通常,数据科学家并不需要钻研假设检验和置信区间的细枝末节,这些是研究人员在准备论文以便展示时需要搞清楚的。

# 本节要点

  1. 在计算机出现之前,重抽样检验并不实用,统计人员使用标准参考分布。
  2. 检验统计量应该做归一化,这样才能与参考分布做比较。
  3. t 统计量是一种广为使用的归一化统计量。

# 拓展阅读

任何一本统计学入门教材都会介绍 t 统计量及其用途: 在此我们推荐两本教材
(1)一本是 David Freedman、Robert Pisani 和 Roger Purves 合著的经典统计学教材 Statistic(s 第 4 版)
(2)另一本是 David S. Moore 撰写的 The Basic Practice of Statistics。

关于 t 检验和重抽样过程的并行处理
推荐阅读 Peter Bruce 撰写的 Introductory Statistics and Analytics: A Resampling Perspective 一书
或者 Robin Lock 及其他四位洛克家族成员 合著的 Statistics: Unlocking the Power of Data 一书。