什么是线性回归?
线性回归是绘制自变量和因变量之间的线性关系的数据图。 它通常用于直观地显示关系的强度和结果的分散性,所有这些都是为了解释因变量的行为。
假设我们想测试食用冰淇淋量与肥胖之间关系的强度。 我们将取自变量(冰淇淋的量),并将其与因变量(肥胖)相关联,以查看是否存在关联。 给定回归是此关系的图形显示,数据的可变性越低,则关系越强,并且对回归线的拟合越紧密。
重要要点
- 线性回归模型化因变量和自变量之间的关系。如果变量是独立的,没有异方差性,并且变量的误差项不相关,则可以进行回归分析。数据分析工具库。
重要注意事项
有关您的数据集的一些关键假设必须正确,才能进行回归分析:
- 变量必须是真正独立的(使用卡方检验)。数据不得具有不同的误差方差(这称为异方差(也称为异方差))。每个变量的误差项必须不相关。 如果不是,则表示变量是串行相关的。
如果这三件事听起来很复杂,那就是。 但是,这些考虑之一不成立的影响是有偏差的估计。 从本质上讲,您可能会错报要衡量的关系。
在Excel中输出回归
在Excel中运行回归分析的第一步是仔细检查是否已安装免费的Excel插件Data Analysis ToolPak。 该插件使计算一系列统计数据变得非常容易。 不需要绘制线性回归线,但可以简化统计表的创建。 要验证是否已安装,请从工具栏中选择“数据”。 如果选择“数据分析”,则该功能已安装并可以使用。 如果未安装,则可以通过单击Office按钮并选择“ Excel选项”来请求此选项。
使用数据分析工具库,只需单击几下即可创建回归输出。
自变量在X范围内。
给定标准普尔500指数的收益,我们想知道是否可以估算Visa(V)股票收益的强度和关系。 Visa(V)股票收益数据填充在第1列作为因变量。 标普500返回的数据填充到第2列作为自变量。
- 从工具栏中选择“数据”。 显示“数据”菜单。选择“数据分析”。 将显示“数据分析-分析工具”对话框。从菜单中选择“回归”,然后单击“确定”。在回归对话框中,单击“输入Y范围”框,然后选择因变量数据(Visa股票)返回)。单击“输入X范围”框并选择自变量数据(标准普尔500返回)。单击“确定”运行结果。
解释结果
使用该数据(与R平方的文章相同),我们得到下表:
R 2值,也称为确定系数,用于测量由自变量解释的因变量的变化比例或回归模型对数据的拟合程度。 R 2值的范围是0到1,值越高表示拟合越好。 p值或概率值的范围也从0到1,指示测试是否有效。 与R 2值相反,较小的p值是有利的,因为它表示因变量和自变量之间的相关性。
在Excel中绘制回归图
我们可以通过突出显示数据并将其绘制为散点图来在Excel中绘制回归图表。 要添加回归线,请从“图表工具”菜单中选择“布局”。 在对话框中,选择“趋势线”,然后选择“线性趋势线”。 要添加R 2值,请从“趋势线”菜单中选择“更多趋势线选项”。最后,选择“在图表上显示R平方值”。视觉结果总结了这种关系的强度,尽管以不提供为代价。与上表一样详细。