什么是虚假相关
在统计中,虚假相关性或虚假性是指两个因果关系而并非因果关系的变量之间的联系。 虚假关系通常具有一个影响另一个变量的外观。 这种虚假的相关性通常是由检查时不明显的第三因素引起的,有时称为混杂因素。
重要要点
- 虚假相关性或虚假性是当两个因素出现偶然相关但不相关时。因果关系的出现通常是由于图表上的相似运动所致,事实证明这是巧合或由第三个“混淆”因素引起。通常可能是由于样本量太小或端点任意所致。
虚假相关如何工作
当两个随机变量在图形上彼此密切跟踪时,很容易怀疑相关性或两个因素之间的关系,其中变化会影响另一个因素。 除了另一个主题“因果关系”,这种观察可以使图表的读者相信变量A的运动与变量B的运动有关,反之亦然。 但有时,在进行更仔细的统计检查时,对齐的运动是偶然的或由影响前两个的第三个因素引起的。 这是虚假的关联。 使用小样本量或任意端点进行的研究很容易受到伪造的影响。
虚假相关示例
发现有趣的相关性并不太困难。 但是,许多人最终会变得虚假。 对于华尔街的雄性物种,两个流行的虚假关联涉及女性和体育。 裙长理论起源于1920年代,它认为裙长和股票市场的方向是相关的。 如果裙长太长,则意味着股市正在下跌;反之亦然。 如果它们做空,则市场正在上涨。 1月下旬左右,有人在谈论所谓的“超级碗”指标,这表明AFC团队获胜可能意味着股市将在来年下跌,而NFC团队的胜利预示着AFC团队的崛起。市场。 自1966年以来,该指标的准确率为80%。 这是一段有趣的对话,但可能不是认真的财务顾问会推荐给客户的一种投资策略。
以下是一些常见虚假相关性的示例:
- 冰淇淋销量增加时,溺水人数增加。 似乎冰淇淋销售量的增加会导致更多的溺水,但实际上,热量的上升可能会导致更多的人游泳以及购买更多的冰淇淋。2006-2011年间美国的谋杀率与微软Internet Explorer的下降速度相同高管们通常会表现出更好的分享表现,而常说Okland Raiders团队的人更有可能犯罪。
如何发现虚假相关
统计人员和其他分析数据的科学家必须时刻注意虚假关系。 他们使用许多方法,包括:
- 确保适当的代表性样本,获得适当的样本量,警惕任意端点,控制尽可能多的外部变量,使用无效假设并检查强p值。