什么是置信区间?
在统计中,置信区间是指总体参数在一定比例的时间内落在两个设置值之间的概率。 置信区间测量抽样方法中不确定性或确定性的程度。 置信区间可以取任意数量的概率,最常见的是95%或99%的置信度。
置信 区间 和置信 度 是相互关联的,但并不完全相同。
了解置信区间
统计人员使用置信区间来衡量不确定性。 例如,研究人员从同一总体中随机选择不同的样本,并计算每个样本的置信区间。 结果数据集是不同的。 一些间隔包括真实的总体参数,而其他间隔则没有。
置信区间 是可能包含未知总体参数的一系列值。 置信水平 是指当您多次抽取随机样本时,置信区间将包含真实总体参数的概率或确定性百分比。 或者,用白话来说,“我们有99%的把握( 置信度) ,其中大多数数据集 (置信区间) 都包含真实的种群参数。”
重要要点
- 置信区间计算总体参数落在两个设定值之间的概率。置信区间测量抽样方法中不确定性或确定性的程度;置信区间通常反映95%或99%的置信度。
计算置信区间
假设一组研究人员正在研究高中篮球运动员的身高。 研究人员从人群中随机抽取样本,并确定平均高度为74英寸。 74英寸的平均值是总体平均值的点估计。 点估计本身的作用是有限的,因为它不能揭示与估计有关的不确定性。 您对这个74英寸样本均值可能与总体均值之间的距离不太了解。 缺少的是此单个样本中的不确定性程度。
置信区间比点估计提供更多的信息。 通过使用样本的均值和标准差建立95%的置信区间,并假设钟形曲线表示正态分布,研究人员可以得出包含95%的真实均值的上限和下限。 假设间隔在72英寸至76英寸之间。 如果研究人员从整个高中篮球运动员中随机抽取100个样本,则其中95个样本的平均值应介于72到76英寸之间。
如果研究人员希望获得更大的置信度,则可以将时间间隔扩展到99%的置信度。 这样做总是会产生更大的范围,因为这为更大数量的样品均值腾出了空间。 如果他们将99%的置信区间确定为介于70英寸和78英寸之间,则可以预期100个样本中有99个样本的平均值在这些数字之间。 90%的置信度意味着我们期望90%的区间估计包括总体参数。 同样,置信水平为99%意味着95%的间隔将包含该参数。
关于置信区间的常见误解
关于置信区间的最大误解是,它们代表给定样本中落在上下限之间的数据百分比。 例如,可能错误地将上述的70-78英寸的99%置信区间解释为指示随机样本中99%的数据落在这些数字之间。 这是不正确的,尽管存在一种单独的统计分析方法来进行这种确定。 这样做涉及确定样品的均值和标准差,并将这些数字绘制在钟形曲线上。