什么是卡方统计?
卡方( χ2 ) 统计量是一种测试,用于衡量期望与实际观察到的数据(或模型结果)的比较方式。 用于计算卡方统计量的数据必须是随机的,原始的,互斥的,从独立变量中提取并从足够大的样本中提取。 例如,投掷硬币100次的结果符合这些条件。
卡方检验通常用于假设检验中。
卡方的公式是
χc2= ∑(Oi-Ei)2Ei其中:c =自由度O =观察值E =期望值\开始{对齐}&\ chi ^ 2_c = \ sum \ frac {(O_i-E_i)^ 2} {E_i} \&\ textbf {其中:} \&c = \ text {自由度} \&O = \ text {观测值} \&E = \ text {期望值} \ \ end {aligned}χc2= ∑Ei(Oi-Ei)2其中:c =自由度O =观测值E =预期值
卡方统计量会告诉您什么?
卡方检验主要有两种:独立性检验,它提出一个关系问题,例如“性别与SAT分数之间是否存在关系?”; 拟合优度测试要求类似“如果将一枚硬币抛掷100次,它会掉头50次,甩尾50次吗?”
对于这些测试,利用自由度来确定是否可以基于实验中变量和样本的总数拒绝某个零假设。
例如,在考虑学生和课程选择时,30名或40名学生的样本量可能不足以产生大量数据。 使用样本量为400或500的学生从研究中获得相同或相似的结果更为有效。
在另一个示例中,考虑将硬币扔100次。 投掷100枚硬币的预期结果是,正面将上升50次,而尾部将上升50次。 实际结果可能是,头部抬起45次,而尾巴抬起55次。 卡方统计量显示预期结果与实际结果之间的任何差异。
卡方检验示例
想象一下,对2, 000名男女选民进行了随机调查。 回答的人按性别分类,分别是共和党人,民主人士或独立人士。 想象一下一个网格,其中的列分别标记为共和党,民主人士和独立党,两行分别标记为男性和女性。 假设来自2, 000位受访者的数据如下:
计算卡方统计量的第一步是找到期望的频率。 这些是为网格中的每个“单元”计算的。 由于性别分为两类,政治观点分为三类,因此共有六种预期频率。 预期频率的公式为:
E(r,c)= n(r)×c(r)n其中:r =问题中的行c =问题中的列n =相应的总数\开始{对齐}&E(r,c)= \ frac {n(r)\次c(r)} {n} \&\ textbf {其中:} \&r = \ text {有问题的行} \&c = \ text {有问题的列} \&n = \ text {相应的总数} \ \ end {aligned} E(r,c)= nn(r)×c(r)其中:r =问题中的行c =问题中的列n =对应的总数
在此示例中,预期频率为:
- E(1, 1)=(900 x 800)/ 2, 000 = 360E(1, 2)=(900 x 800)/ 2, 000 = 360E(1, 3)=(200 x 800)/ 2, 000 = 80E(2, 1 )=(900 x 1, 200)/ 2, 000 = 540E(2, 2)=(900 x 1, 200)/ 2, 000 = 540E(2, 3)=(200 x 1, 200)/ 2, 000 = 120
接下来,使用这些值使用以下公式来计算卡方统计量:
卡方= ∑2E(r,c)其中:O(r,c)=给定行和列的观察数据\开始{对齐}&\文本{卡方} = \ sum \ frac {^ 2} {E(r,c)} \&\ textbf {其中:} \&O(r,c)= \ text {观察给定行和列的数据} \ \ end {aligned} ∑E(r,c)2其中:O(r,c)=给定行和列的观测数据
在此示例中,每个观察值的表达式为:
- O(1, 1)=(400-360)2/360 = 4.44O(1, 2)=(300-360)2/360 = 10O(1, 3)=(100-80)2/80 = 5O (2, 1)=(500-540)2/540 = 2.96O(2, 2)=(600-540)2/540 = 6.67O(2, 3)=(100-120)2/120 = 3.33
卡方统计量然后等于这些值的总和,即32.41。 然后,在给定设置自由度的情况下,我们可以查看卡方统计表以查看结果是否具有统计学意义。