什么是平方和?
平方和是一种用于回归分析以确定数据点分散的统计技术。 在回归分析中,目标是确定将数据序列拟合到函数的程度,这可能有助于解释如何生成数据序列。 平方和被用作一种数学方法,可以从数据中找到最适合(最小变化)的函数。
平方和的公式为
</ s> </ s> </ s> 对于n个项的集合X:平方和= i = 0∑n(Xi-X)2其中:Xi =集合中的第i个项X =集合中所有项的平均值(Xi-X )=每个项目与均值的偏差
平方和也称为变异。
平方和告诉您什么?
平方和是从均值偏差的量度。 在统计中,均值是一组数字的平均值,是最常用的集中趋势度量。 通过将数据集中的值相加并除以值的数量,可以简单地计算出算术平均值。
假设过去五天微软(MSFT)的收盘价分别为74.01、74.77、73.94、73.61和73.40美元。 总价格之和为369.73美元,因此教科书的平均价格为369.73美元/ 5 = 73.95美元。
但是,了解度量集的平均值并不总是足够的。 有时,了解一组测量值有多少变化会很有帮助。 各个值与平均值的距离可能有多远,从而可以使您更深入地了解观察值或值与所创建的回归模型的拟合程度。
例如,如果分析师想知道MSFT的股价是否与苹果(AAPL)的价格同步移动,他可以列出在一定时期内两只股票的走势的观察结果集,例如1、2或10年,并创建一个线性模型,并记录每个观测值或测量值。 如果两个变量之间的关系(即,AAPL的价格和MSFT的价格)不是一条直线,则需要仔细检查数据集的变化。
用统计学的话来说,如果在线性模型中创建的线没有通过所有价值度量,那么就无法解释股价中观察到的某些可变性。 平方和用于计算两个变量之间是否存在线性关系,并且任何无法解释的可变性称为残差平方和。
平方和是方差的平方和,其中方差定义为每个单个值与平均值之间的差。 为了确定平方和,将每个数据点和最佳拟合线之间的距离平方,然后求和。 最佳拟合线将使该值最小化。
如何计算平方和
现在您可以看到为什么将度量称为偏差平方和,或简称为平方和。 使用上面的MSFT示例,平方和可以计算为:
- SS =(74.01-73.95) 2 +(74.77-73.95) 2 +(73.94-73.95) 2 +(73.61-73.95) 2 +(73.40-73.95) 2 SS =(0.06) 2 +(0.82) 2 +(- 0.01) 2 +(-0.34) 2 +(-0.55) 2 SS = 1.0942
仅将偏差的总和相加而不求平方,将得出一个等于或接近零的数字,因为负偏差将几乎完全抵消正偏差。 为了获得更实际的数字,偏差的总和必须平方。 平方和将始终为正数,因为任何数字的平方(无论是正数还是负数)始终为正数。
如何使用平方和的示例
根据MSFT计算的结果,较高的平方和表示大多数值距离均值较远,因此数据存在较大差异。 低平方和表示观测值集中的可变性低。
在上面的示例中,1.0942表明过去五天MSFT的股价波动非常小,希望投资价格稳定且波动性低的股票的投资者可能会选择MSFT。
重要要点
- 平方和表示数据点偏离平均值的偏差。较高的平方和结果表示数据集内的变异性很大,而较低的结果表示数据确实与平均值有很大差异。
使用平方和的局限性
对要购买的股票做出投资决策需要的观察要多于此处列出的观察。 分析师可能必须使用多年的数据才能更确定地了解资产的可变性。 随着更多的数据点被添加到集合中,平方和变得更大,因为值将更加分散。
最广泛使用的变化量度是标准偏差和方差。 但是,要计算两个指标中的任何一个,必须首先计算平方和。 方差是平方和的平均值(即平方和除以观察数)。 标准偏差是方差的平方根。
有两种使用平方和的回归分析方法:线性最小二乘法和非线性最小二乘法。 最小二乘法是指回归函数将与实际数据点的方差平方和最小化的事实。 这样,可以绘制一个统计上最适合数据的函数。 请注意,回归函数可以是线性的(直线)或非线性的(曲线)。