# 3.7 自由度
自由度应用于从样本数据计算得到的统计量,指可以自由变化的值的个数。
例如,对于一个具有 10 个值的样本 如果知道了样本的均值以及样本中的 9 个值,那么第 10 个值也是已知的,即只有 9 个值是自由变化的。
- 主要术语
n,即样本规模
在数据中,观测(也称为行或记录)的数量。
d.f.
degrees of freedom(自由度)的简写。
自由度是很多统计检验的一个输入,例如,在计算方差和标准偏差时,分母 n-1 就是自由度。
- 为什么要使用自由度?
在使用一个样本估计总体的方差时,如果在分母上使用了 n, 那么估计的偏差就会偏小。
如果在分母上使用了 n-1,这时估计就是无偏的。
t 检验、F 检验等各种对假设的标准检验,占据了传统统计学课程或教材的大部分内容。
在传统的统计学公式中,如果使用了经过归一化的样本统计量,自由度就是归一化计算的一部分,
它确保了归一化的数据可以匹配适当的参考分布,如 t 分布、F 分布等。
- 自由度对数据科学是否也同样重要?
答案是并非如此,至少就显著性检验而言并非如此。
一方面,在数据科学中,我们只是保守地使用了正式的统计检验。
另一方面,数据的规模通常会非常大,这使得对于数据科学家来说,分母是 n 还是 n-1 几乎没有区别。
- 但是在数据科学中
有一种场景是与自由度相关的,那就是在回归(包括逻辑回归)中使用因子化变量。
如果在回归算法中使用了完全冗余的预测变量,那么算法就会产生阻塞。
该问题经常出现在将分类变量因子化为二元标识(虚拟变量)的情况下。
以星期为例,虽 然一个星期有 7 天,但具体是星期几,其自由度为 6。
一旦我们知道某一天并不是从星期一到星期六中的任意一天,那么它一定是星期天。
因此,如果在回归中包括了星期一至星期六,就意味着也加入了星期天,而由于多重共线性(multicollinearity)问题,这将导致 回归失败。
# 本节要点
- 自由度是归一化检验统计量计算的一部分。
它使得归一化后的结果可以与参考分布 (例如 t 分布、F 分布等)进行对比。 - 在回归中,为避免出现多重共线性问题,在将分类变量因子化为 n-1 个标识或虚拟变量时,应考虑其中隐含的自由度概念。