什么是确定系数?
确定系数是统计分析中使用的一种度量,用于评估模型解释和预测未来结果的程度。 它表示数据集中解释的可变性的水平。 确定系数,通常也称为“ R平方”,用作衡量模型准确性的准则。
解释该图的一种方法是说,给定模型中包含的变量大约解释了所观察到的变化的x%。 因此,如果R 2 = 0.50,则模型可以解释观察到的变化的大约一半。
R-平方
重要要点
- 确定系数是一个复杂的思想,其中心在于对未来数据模型进行统计分析。确定系数用于说明一个因素与另一个因素的关系可能导致多少可变性。
了解确定系数
确定系数用于解释一个因素与另一个因素的关系可能导致多少可变性。 它在趋势分析中高度依赖,并表示为0到1之间的值。
值越接近1,两个因素之间的拟合或关系越好。 确定系数是相关系数的平方,也称为“ R”,它使它可以显示两个变量之间的线性相关程度。
这种相关性称为“拟合优度”。 值1.0表示完美契合,因此对于将来的预测来说是一个非常可靠的模型,表明该模型解释了所观察到的 所有 变化。 另一方面,值为0表示该模型根本无法准确地对数据建模。 对于具有多个变量的模型(例如多元回归模型),调整后的R 2是更好的确定系数。 在经济学上,R 2值大于0.60被认为是值得的。
分析确定系数的优势
确定系数是数据集中的预测得分与实际得分集之间的相关性的平方。 它也可以表示为X和Y得分之间相关性的平方,其中X是自变量,Y是因变量。
不管表示形式如何,R平方等于0都意味着无法使用自变量来预测因变量。 相反,如果等于1,则意味着变量的因数始终由自变量预测。
落在该范围内的确定系数测量因变量由自变量预测的程度。 例如,R平方为0.20意味着自变量预测了20%的因变量。
拟合优度或线性相关程度衡量的是图表上的拟合线与散布在图表周围的所有数据点之间的距离。 紧密的数据集将具有一条非常靠近这些点的回归线,并且拟合程度很高,这意味着该线与数据之间的距离非常小。 一个好的拟合的R平方接近1。
但是,R平方无法确定数据点或预测是否有偏差。 它还不会告诉分析人员或用户确定值的系数是否良好。 例如,低R平方并不坏,这取决于个人根据R平方数做出决定。
确定系数不应天真地解释。 例如,如果模型的R平方报告为75%,则其误差的方差比因变量的方差小75%,并且其误差的标准差比因变量的标准差小50%变量。 模型误差的标准偏差约为纯常数模型所获得的误差标准偏差的三分之一。
最后,即使R平方值很大,模型中的解释变量也可能没有统计意义,或者这些变量的有效大小实际上可能很小。