什么是逐步回归?
回归分析是一种广泛使用的统计方法,旨在识别变量之间的关系。 这个想法是汇集相关数据以做出更明智的决策,并且是投资界的一种普遍做法。 逐步回归是涉及自动选择自变量的回归模型的逐步迭代构建。 统计软件包的可用性使逐步回归成为可能,即使在具有数百个变量的模型中也是如此。
逐步回归的类型
逐步回归的基本目标是通过一系列检验(F检验,t检验)来找到一组会显着影响因变量的自变量。 这是通过计算机通过迭代来完成的,迭代是通过反复进行分析或循环来得出结果或决策的过程。 在统计软件包的帮助下自动进行测试的优点是可以节省个人时间。
重要要点
- 回归分析是一种统计方法,旨在了解和衡量自变量和因变量之间的关系;逐步回归是一种检查模型中每个自变量的统计显着性的方法。前向选择方法会添加一个变量,然后测试其统计显着性后向消除方法从加载了多个变量的模型开始,然后删除一个变量以测试其相对于整体结果的重要性。逐步回归有很多批评意见,因为这种方法将数据拟合到模型中以获得期望的结果。
逐步回归可以通过一次尝试一个自变量并将其包括在回归模型中(如果它具有统计意义)来实现,或者通过在模型中包括所有潜在的自变量并消除那些不具有统计意义的变量来实现。 有些将这两种方法结合使用,因此有三种逐步回归的方法:
- 正向选择从模型中没有任何变量开始,在将每个变量添加到模型中后对其进行测试,然后保留被认为在统计上最重要的变量-重复该过程直到结果最优。向后消除从一组独立变量开始,一次删除一个变量,然后进行测试以查看删除的变量是否具有统计意义。双向消除是前两种方法的组合,用于测试应包括或排除哪些变量。
使用向后消除方法进行逐步回归的一个示例是尝试使用变量(例如设备运行时间,设备年龄,员工人数,外界温度和一年中的时间)来了解工厂的能源使用情况。 该模型包括所有变量,然后一次将每个变量都删除,以确定哪个变量在统计上最不重要。 最后,该模型可能表明一年中的时间和温度最重要,这可能表明工厂的峰值能耗是空调使用量最高时。
逐步回归的局限性
线性和多元回归分析在当今的投资领域中被广泛使用。 这个想法通常是寻找过去存在的模式,将来也可能再次出现。 例如,简单的线性回归可以查看市盈率和多年的股票收益,以确定低市盈率(自变量)的股票是否提供更高的收益(因变量)。 这种方法的问题在于,市场条件经常发生变化,过去保持的关系在现在或将来不一定成立。
同时,逐步回归过程有很多批评家,甚至有人呼吁完全停止使用该方法。 统计学家注意到该方法的一些缺点,包括错误的结果,流程本身固有的偏差以及需要大量计算能力才能通过迭代开发复杂的回归模型的问题。