Winsorized是什么意思?
Winsorized均值是一种求平均值的方法,最初会用最接近它们的观测值代替最小和最大值。 这样做是为了限制异常极值或异常值对计算的影响。 替换值之后,然后使用算术平均值公式来计算winsorized平均值。
Winsorized Mean的公式是
</ s> </ s> </ s> Winsorized Mean = Nxn… xn + 1 * xn + 2… xn其中:n =观测值将替换的最大和最小数据点的数量
Winsorized手段以两种方式表示。 “ k n ”白化平均值是指替换“ k”个最小和最大观测值,其中“ k”是整数。 “ X%” Winsorized均值涉及从数据两端替换给定百分比的值。
如何计算Winsorized均值
通过替换最小和最大数据点,然后对所有数据点求和,然后将总和除以数据点的总数,即可计算出winsorized平均值。
Winsorized的意思告诉您什么?
Winsorized均值对离群值不太敏感,因为它可以用较低的极值代替它们。 也就是说,相对于均值,它不易受到轮廓的影响。 但是,如果分布具有肥大的尾巴,则由于分布图中的可变性较高,因此删除分布中的最高和最低值的影响几乎没有影响。
重要要点
- 一种平均方法,包括用最接近的观测值替换最小和最大值。对异常值不敏感,因为它可以用较小的极端值替换它们。与修整平均值不同,后者涉及删除数据点,尽管这是两者的结果趋于接近。
如何使用Winsorized Mean的示例
可以计算以下数据集的Winsorized均值:1、5、7、8、9、10、14。在此示例中,我们假设Winsorized均值处于一阶,我们用它们的最小值和最大值替换它们最近的观察。
现在,数据集显示如下:5、5、7、8、9、10、10。取新集合的算术平均值将产生7.7的winsorized平均值,或者(5 + 5 + 7 + 8 + 9 + 10 + 10)除以7。
或考虑20%的平均收益率,将最高的10%和最低的10%替换为下一个最接近的值。 我们将优胜以下数据集:2,4,7,8,11,14,18,23,23,27,35,40,49,50,55,60,61,61,62,75。这两个最小和最大数据点(即10%)将替换为其下一个最接近的值。 因此,新数据集为:7、7、7、8、11、14、18、23、23、27、35、40、49、50、55、60、61、61、61、61。平均值为33.9,即数据总数(678)除以数据点总数(20)。
Winsorized Mean和Trimmed Mean之间的差异
Winsorized均值包括修改数据点,而修整后的均值包括删除数据点。 Winsorized均值和修整后的均值接近是很常见的。
使用Winsorized Mean的局限性
Winsorized手段的一个主要缺点是,它们将偏见引入了数据集。 诚然,修改后的数据集与留下异常值相比,理想情况下的偏差要小。
了解有关Winsorized Mean的更多信息
对于相关的见解,关于关键均值计算之间的差异。