什么是多重共线性?
多重共线性是在多元回归模型中自变量之间的高度相关性的发生。 当研究人员或分析人员试图确定每个自变量可以最有效地用于预测或理解统计模型中的因变量的程度时,多重共线性会导致结果偏斜或误导。 通常,多重共线性会导致自变量变大的置信区间和较不可靠的概率值。 即,来自具有多重共线性的模型的统计推断可能不可靠。
了解多重共线性
统计分析师使用多个回归模型基于两个或多个自变量的值来预测指定因变量的值。 因变量有时称为结果,目标或标准变量。 一个例子是多元回归模型,该模型试图基于诸如市盈率,市值,过去表现或其他数据之类的项目来预期股票收益。 股票收益是因变量,财务数据的各个部分是自变量。
重要要点
- 多重共线性是一个使模型中的自变量相互关联的统计概念,自变量之间的多共线性将导致可靠的统计推断不可靠,在使用两个或多个变量构建多个回归模型时,最好使用不相关或重复的自变量。
多元回归模型中的多重共线性表明共线性自变量以某种方式相关,尽管这种关系可能是偶然的,也可能不是偶然的。 例如,过去的表现可能与市值有关,因为过去表现良好的股票将具有越来越高的市场价值。 换句话说,当两个自变量高度相关时,可以存在多重共线性。 如果从数据集中的其他变量计算出一个自变量,或者两个自变量提供相似且重复的结果,也会发生这种情况。
消除多重共线性问题的最常见方法之一是首先确定共线性独立变量,然后除去一个变量。 通过将两个或多个共线性变量组合为单个变量,也可以消除多重共线性。 然后可以进行统计分析以研究指定因变量和仅一个自变量之间的关系。
多重共线性的例子
对于投资而言,在进行技术分析以预测证券(例如股票或商品期货)的未来价格走势时,多共线性是一个常见的考虑因素。 市场分析师希望避免使用共线的技术指标,因为它们基于非常相似或相关的输入。 他们倾向于揭示关于价格变动因变量的类似预测。 相反,市场分析必须基于明显不同的自变量,以确保它们从不同的独立分析角度来分析市场。
著名的布林带指标创建者技术分析师约翰·布林格(John Bollinger)指出,“成功使用技术分析的基本规则要求避免在指标之间出现多重共线性。”
为了解决该问题,分析人员避免使用两个或多个相同类型的技术指标。 相反,他们使用一种类型的指标(例如动量指标)来分析证券,然后使用另一种类型的指标(例如趋势指标)进行单独的分析。
潜在的多重共线性问题的一个示例是仅使用几个相似的指标(例如随机指标,相对强度指数(RSI)和Williams%R)执行技术分析,这些指标都是依赖相似输入并可能产生相似结果的动量指标结果。 在这种情况下,最好删除一个指标之外的所有指标,或者找到一种方法将其中几个指标合并为一个指标,同时还添加一个趋势指标,该趋势指标与动量指标的相关性不大。