什么是自由度?
自由度是指数据样本中逻辑上独立的值(即可以自由更改的值)的最大数量。
重要要点
- 自由度是指数据样本中逻辑上独立的值(可以自由变化)的最大数量。自由度通常是与统计中各种形式的假设检验有关的讨论,例如Chi-在试图理解卡方统计量的重要性以及无效假设的有效性时,计算自由度的平方是关键。
了解自由度
从概念上理解自由度的最简单方法是通过示例:
- 为了简单起见,请考虑由五个正整数组成的数据样本。 这些值可以是任何数字,并且它们之间没有已知关系。 从理论上讲,此数据样本将具有五个自由度。样本中的四个数字分别为{3、8、5和4},并且整个数据样本的平均值为6。这必须表示第五个数字必须是10。不能有别的。 它没有变化的自由,因此此数据样本的自由度为4。
自由度的公式等于数据样本的大小减去一:
</ s> </ s> </ s> Df = N-1其中:Df =自由度N =样本大小
通常针对统计中各种形式的假设检验(例如卡方)讨论自由度。 试图了解卡方统计量的重要性和无效假设的有效性时,计算自由度至关重要。
卡方检验
卡方检验有两种不同类型:独立性检验,它提出一个关系问题,例如“性别和SAT分数之间是否存在关系?”; 拟合优度测试要求类似“如果将一枚硬币抛掷100次,它会掉头50次,甩尾50次吗?”
对于这些测试,利用自由度来确定是否可以基于实验中变量和样本的总数拒绝某个零假设。 例如,在考虑学生和课程选择时,30名或40名学生的样本量可能不足以产生大量数据。 使用样本量为400或500的学生从研究中获得相同或相似的结果更为有效。
自由度的历史
最早和最基本的自由度概念是在1800年代初提出的,与数学家和天文学家卡尔·弗里德里希·高斯的作品交织在一起。 英国统计学家威廉·西利·戈塞特(William Sealy Gosset)首先在1908年于Biometrika出版的文章“均值的可能错误”中以笔名保留了其匿名性,阐述了该术语的现代用法和理解。
戈塞特(Gosset)在他的著作中并未特别使用“自由度”一词。 然而,他确实在开发最终称为学生T分布的整个过程中对该概念进行了解释。 实际的术语直到1922年才流行。英国生物学家和统计学家罗纳德·费舍尔(Ronald Fisher)开始发表有关他的卡方的报告和数据时开始使用“自由度”一词。