什么是采样分布?
抽样分布是通过从特定总体中抽取大量样本获得的统计信息的概率分布。 给定总体的采样分布是针对总体统计可能发生的一系列不同结果的频率分布。
了解采样分布
院士,统计学家,研究人员,营销人员,分析人员等得出的大量数据实际上是样本,而不是总体。 样本是总体的子集。 例如,一位医学研究人员想要将1995年至2005年在北美出生的所有婴儿的平均体重与同一时期在南美出生的婴儿的平均体重进行比较,就无法在合理的时间内绘制出整个美国在十年时间内发生了超过一百万的分娩。 相反,他将仅使用每个大陆的100个婴儿的体重得出结论。 所用的200名婴儿的体重为样本,计算出的平均体重为样本平均值。
现在,假设医学研究人员不是从每个大陆仅抽取100个新生儿体重的一个样本,而是从普通人群中抽取重复的随机样本,并计算每个样本组的样本均值。 因此,对于北美洲,他按以下方式收集了在美国,加拿大和墨西哥记录的100个新生儿体重的数据:从美国部分医院中采集了四个100个样本,从加拿大中提取了五个70个样本,从墨西哥获得了三个150个记录,总计1200重量的新生婴儿分为12组。 他还收集了来自南美12个国家/地区的100个出生体重的样本数据。
每个样本都有自己的样本均值,样本均值的分布称为样本分布。
为每个样本集计算的平均权重是平均值的采样分布。 不仅可以从样本中计算出平均值。 可以从样本数据中计算其他统计信息,例如标准差,方差,比例和范围。 标准偏差和方差衡量抽样分布的变化性。
总体中的观测值数量,样本中的观测值数量以及用于绘制样本集的过程决定了采样分布的可变性。 采样分布的标准偏差称为标准误差。 虽然抽样分布的平均值等于总体平均值,但标准误取决于总体的标准偏差,总体的大小和样本的大小。
知道每个样本集的平均值彼此之间以及总体平均值之间的分散程度,将表明样本平均值与总体平均值之间的接近程度。 样本分布的标准误差随着样本数量的增加而减小。
特别注意事项
总体或一个数字样本集将具有正态分布。 但是,由于采样分布包括多组观测值,因此不一定具有钟形曲线的形状。
按照我们的示例,北美和南美的婴儿平均体重具有正态分布,因为一些婴儿体重不足(低于平均值)或超重(高于平均值),而大多数婴儿介于(低于平均值)之间)。 如果北美新生儿的平均体重为7磅,则针对北美记录的12组样本观测中的每组样本平均体重也将接近7磅。
但是,如果用图表显示在1200个样本组中每个样本组中计算出的每个平均值,则所得形状可能会导致均匀分布,但是很难确定实际形状会是什么样。 研究人员从体重超过一百万的人群中使用的样本越多,图表就越会开始形成正态分布。
- 抽样分布是通过从特定总体中抽取大量样本获得的统计信息的概率分布。给定总体的抽样分布是针对某项统计数据可能发生的一系列不同结果的频率分布。院士,统计学家,研究人员,营销人员和分析人员绘制和使用的许多数据实际上是样本,而不是人口。