什么是样本选择偏差?
样本选择偏差是由于选择非随机数据进行统计分析而引起的一种偏差。 偏差是由于样本选择过程中的缺陷而存在的,其中由于特定属性而系统地排除了数据的子集。 排除该子集可能会影响测试的统计显着性,或产生失真的结果。
了解样本选择偏差
生存偏差是样本选择偏差的常见类型。 例如,当对一大批股票进行投资策略的回测时,查找具有整个样本期间数据的证券可能会很方便。 如果要针对价值15年的股票数据测试该策略,则我们可能会倾向于寻找在整个15年期间具有完整信息的股票。 但是,消除停止交易或即将离开市场的股票,将在我们的数据样本中输入一个偏差。 由于我们只包括持续15年的股票,因此我们的最终结果将是有缺陷的,因为它们的表现足以在市场中生存。
对冲基金绩效指标是样本选择偏见的一个例子,该样本容易受到生存偏见的影响。 由于无法生存的对冲基金停止向指数汇总商报告其业绩,因此自然而然地,指数就会倾向于剩余的基金和策略,从而“生存”。这也可能是受欢迎的共同基金报告服务的一个问题。
分析师可以调整以考虑这些偏见,但可能会在此过程中引入新闻偏见。