# 3.11 检验效能和样本规模
在开展 Web 测试时,如何确定测试时间(即每个处理需要显示多少次)?
测试时间主要取决于实现期望目标的频数。
- 主要术语
效果规模 在统计检验中,期望能检测到的效果的最小规模,例如点击率提高 20%。
检验效能 给定样本规模,检测到给定效果规模的概率。
显著性水平 在检验中所使用的统计显著性水平。
# 3.11.1 样本规模
# 本节要点
在确定样本的规模之前,需提前确定要执行的统计检验。
必须指定要检测效果的最小规模。
还必须指定检测这一效果规模(检验效能)所需的概率。
最后,还必须指定执行检验的显著性水平(α 值)。
# 拓展阅读
在开展 Web 测试时,如何确定测试时间(即每个处理需要显示多少次)?
测试时间主要取决于实现期望目标的频数。
- 主要术语
效果规模
在统计检验中,期望能检测到的效果的最小规模,例如点击率提高 20%。
检验效能
给定样本规模,检测到给定效果规模的概率。
显著性水平
在检验中所使用的统计显著性水平。
# 3.11.1 样本规模
检验效能计算最常用于估计所需的样本规模。
例如,假设我们要查看点击率的情况,即点击次数占展示次数的百分比,并检验已有广告与新广告之间的对比情况。
那么在此研究中,我们需要积累多少次点击?
如果我们只关注能显示出巨大差异的结果(例如,50% 的差异),那么使用较小规模的样本就可以。
另一方面,如果我们关注的是微小的差异情况,那么就需要规模更大的样本。
一种标准方法是制定一个策略,指定新广告必须比现有广告好百分之多少(例如 10%),否则将保持现有的广告不变。
这个目标就称为效果规模,它决定了样本的规模。
例如,假设当前的点击率约为 1.1%,而我们寻求 10% 的提升,即升至 1.21%。
因此我们构建两个箱子,箱子 A 中 1 占 1.1%(例如,箱子中有 110 个 1 和 9890 个 0),
箱子 B 中 1 占 1.21%(例如,箱子中有 121 个 1 和 9879 个 0)。
我们先尝试从每个箱子中做 300 次抽 取(对于广告而言,就是做 300 次“展示”)。
假设我们第一次抽取的结果如下:
• 箱子A:3个1
• 箱子B:5个1
显而易见,任何假设检验都会认为这种差异(5 比 3)是在随机变异的范围之内。
但是要让任意假设检验都能可靠地展示出差异情况,这里使用的样本规模(每个组中 n = 300)和 效果规模(差异 10%)过小。
现在,我们可以尝试增大样本规模(试试展示 2000 次),并要求点击率提升更大的幅度 (例如,提升 30% 而不是 10%)。
假设目前的点击率仍然是 1.1%,但我们现在它提升 50%,即提升到 1.65%。
我们构建两个箱子,箱子 A 中 1 依然占 1.1%(例如,110 个 1 和 9890 个 0),
而箱子 B 中 1 占 1.65% (例如,165 个 1 和 9868 个 0)。
现在,我们尝试对每个箱子做 2000 次抽取。假设我们第一次抽取的结果如下。
• 箱子A:19个1
• 箱子B:34个1
对该差异情况(34 比 19)的显著性检验表明,尽管它比前面给出的差异(5 比 3)更接近显著,但仍然是“不显著的”。
为了计算检验效能,我们需要多次重复上面的过程,或者 使用可以计算检验效能的统计软件。
但是我们的初始抽取表明,即便是要检测到 50% 的提升,广告也需要做上千次的展示。
总之,在计算检验效能或所需的样本规模时,有四个成分是可替换的。
它们分别是:
• 样本规模 • 要检测的效果规模 • 执行检验的显著性水平,即 α 值 • 检验效能
如果指定了其中三个成分,那么就可计算得到第四个成分。最常见的情况是需要计算样本的规模,因此必须指定其他三个成分。
下面的 R 代码使用 pwr 软件包,给出了涉及两个成分的测试,其中两个样本的规模相同。
pwr.2p.test(h = ..., n = ..., sig.level = ..., power = )
h= effect size (as a proportion)
n = sample size
sig.level = the significance level (alpha) at which the test will be conducted power = power (probability of detecting the effect size)
# 本节要点
• 在确定样本的规模之前,需提前确定要执行的统计检验。
• 必须指定要检测效果的最小规模。
• 还必须指定检测这一效果规模(检验效能)所需的概率。
• 最后,还必须指定执行检验的显著性水平(α 值)。
# 拓展阅读
• Tom Ryan 撰写的 Sample Size Determination and Power 一书,对此问题做出了全面的综述,适合阅读。
• 针对该问题,统计顾问 Steve Simon 以叙事风格撰写了一篇引人入胜的文章
“P. Mean: The first three steps in selecting an appropriate sample size”。