什么是向后归纳法?
博弈论中的向后归纳是一个从问题或情况的结尾到时间上向后推理的迭代过程,以解决有限的扩展形式和顺序博弈,并推断出一系列最佳动作。
向后归纳解释
自从约翰·冯·诺伊曼(John von Neumann)和奥斯卡·摩根斯坦(Oskar Morgenstern)在1944年出版他们的《 游戏与经济行为理论》 一书时就将游戏理论作为一门学术学科确立以来,向后归纳法一直用于解决游戏。
在游戏的每个阶段,向后感应确定了在游戏中进行最后一步的玩家的最佳策略。 然后,根据给定的最后一个玩家的动作,确定倒数第二个玩家的最佳动作。 此过程将继续进行,直到确定每个时间点的最佳操作为止。 有效地,是确定原始游戏的每个子游戏的纳什均衡。
但是,从反向归纳推断出的结果通常无法预测实际的人为游戏。 实验研究表明,在现实生活中很少出现“理性”行为(如博弈论所预测的)。 如the游戏所示,不理性的玩家实际上最终可能会获得比向后归纳预测的更高的回报。
在the游戏中,两名玩家交替获得机会,从增加的彩池中获得更大份额,或将彩池转移给另一名玩家。 收益的安排是这样的:如果彩池被传递给对手,而对手在下一轮拿下彩池,则该人获得的收益比在本轮中拿到彩池的收益要少。 一旦一名玩家拿走藏匿点,游戏即告结束,该玩家获得更大的份额,另一位玩家获得较小的份额。
向后归纳的例子
例如,假设玩家A首先走,必须决定他应该“拿”还是“过”藏匿物,当前藏匿物为$ 2。 如果他选择了,则A和B分别获得$ 1,但是如果A通过,则必须由玩家B决定现在是否通过。如果B选择了,则她将获得$ 3(即,之前的存入$ 2 + $ 1) A得到$ 0。 但是,如果B通过,那么A现在可以决定是通过还是通过,依此类推。 如果两个玩家总是选择通过,则他们在游戏结束时将分别获得$ 100的收益。
游戏的重点是,如果A和B都合作并继续通过游戏直到结束,他们将分别获得$ 100的最高奖励。 但是,如果他们不信任另一位玩家并期望他们在第一个机会“拿走”,那么纳什均衡预测,玩家将获得尽可能低的索偿(在这种情况下为1美元)。
该游戏的纳什均衡(Nash balance)表明,在考虑了对手的选择之后,没有玩家有动机偏离自己选择的策略,这表明第一位玩家将在游戏的第一轮中赢得底池。 但是,实际上,很少有玩家这样做。 结果,他们获得的收益高于均衡分析所预测的收益。
使用向后归纳法解决顺序博弈
以下是两个玩家之间的简单顺序游戏。 其中带有播放器1和播放器2的标签分别是一个或两个播放器的信息集。 树底部括号中的数字是每个相应点的收益。 游戏也是顺序的,因此玩家1做出第一个决定(左或右),而玩家2做出决定后则是玩家1(上或下)。
图1
像所有博弈论一样,向后归纳法使用合理性和最大化的假设,这意味着玩家2将在任何给定情况下最大化其收益。 无论使用哪种信息集,我们都有两个选择,总共四个。 通过消除玩家2不会选择的选项,我们可以缩小树的范围。 这样,我们将在给定的信息集上加粗线条,以最大化玩家的收益。
图2
减少费用后,既然知道了玩家2的选择,玩家1便可以最大程度地提高收益。 结果是通过向后诱导玩家1选择“正确”和玩家2选择“向上”而找到的平衡。 以下是平衡路径为黑体的博弈解决方案。
图3
例如,可以使用公司作为玩家轻松地建立类似于上述游戏的游戏。 该游戏可能包括产品发布方案。 如果公司1要发布产品,公司2会做些什么呢? 公司2是否会发布类似的竞争产品? 通过预测此新产品在不同情况下的销售量,我们可以设置一个游戏来预测事件可能如何发生。 下面是一个如何模拟这样的游戏的示例。
图4