囚徒困境
纳什均衡与帕累托效率
为了确定游戏的结果,我们需要一种方法来描述每个玩家如何做出决定。每个玩家都能选择将使他们最高收益的动作,假设其他玩家的动作是固定的。这是描述囚犯困境的理想选择,因为每个囚犯必须在没有与另一个沟通的情况下做出决定。
鲍勃的原因如此:
- 如果Alice决定合作,那么如果我合作,我会在监狱里呆1年如果我叛变,我会坐牢0年,所以我应该叛变。
- 如果爱丽丝决定叛逃,那么如果我合作,我会被判3年监禁如果我叛逃,我会被判2年,所以我应该叛逃。
爱丽丝也是这样推理的。这种情况是纳什均衡.它是最佳的缺陷,因为在任何情况下,最佳的“我”的最佳解决方案就是缺陷。
然而,这种均衡并没有抓住“最佳”结果的概念。双方合作对双方都有好处。帕累托效率结果是最好的
“级数”和Newcomb的问题
因为如果双方都合作,结果会比双方都背叛要好,所以很多人都试图发展决策理论来确保双方都愿意合作。
道格拉斯·霍夫施塔特提出了一种名为“超理性”的解决方案。超理性假设玩家是在与自己的复制品对抗。如果它们真的是复制品,那么当另一方出现缺陷时,一方就不可能合作。唯一的选择是双方都合作和双方都背叛,而双方都合作是最好的。
这种思维方式是永恒的决策理论,替代代表所描述的决策标准形式的替代方案[1].在永恒决策理论中,不是假设每个人的行为都是固定的而选择一个行为,而是假设所有其他与之相同的行为者都必须选择相同的行为。这种思路也被用来解决纽科姆的悖论.在这个问题中,一个可以预测你的动作的机器人会给你两个盒子,盒子里装满了钱,这取决于机器人预测你会做什么。如果机器人能预测你的动作完美的,这就像你对自己的副本一起玩一样。此设置与上级囚犯的困境相同。
囚徒的困境
在标准的囚徒困境中,玩家之间只进行一次对抗。然而,在现实生活中的游戏中,玩家通常会多次对抗对方。他们需要考虑到其他玩家在接下来的回合中会做什么。例如,你可能认为偷窃是理性的
在这种情况下,双方都知道有 轮,可以找到合理的解决方案使用K级思维.考虑到 圆的。球员的理由是因为未来没有更多轮次,没有理由合作,所以她缺陷。同样,球员2理由应该缺陷。但是 理由是一样的。他们都知道他们都会背叛的 无论如何,都没有理由没有缺勤 圆的。根据归纳法,两者总是有缺陷的。和之前一样,理性的解决方案对双方都比总是合作更糟糕。
这意味着,当代理对未来游戏的情况了解较少时,他们更容易合作。
严格地说什么策略在重复囚徒困境中是最好的是非常困难的,特别是因为一个策略的成功取决于其他玩家使用的策略。最好的方法是编写程序(或“bot”),代表使用这些策略的代理,然后让它们在比赛中相互竞争。
最简单的两种策略是:[2]
- 合作字体机器人总是合作的
- 缺陷: DefectBot总是缺陷
自缺陷以来总是缺陷,无论你做什么,那么当与DefectBot游戏时的最佳选择总是缺陷。当你与《DefectBot》进行对抗时,你可以使用类似于
- ReasonableBot: ReasonableBot对DefectBot有缺陷,但会与之合作
不幸的是,这给我们留下了一个应对策略:
- trollbot.: TrollBot与任何与DefectBot合作的人合作,并对任何与DefectBot合作的人进行缺陷
如果机器人对阵99个缺陷和1个Trollbot的池,那么它仍然值得
迭代囚犯困境中最常见的策略是山雀 - tat.TitForTatBot将在第一轮比赛中合作
在进化生物学中,一报还一报的策略被用来解释互惠利他主义在物种中。尽管每个单独的基因都是自私的(即,通过缺陷的任何给定点始终会有更高的收益),但它可以整体对生物来互相帮助,从而避免永远缺陷的不利均衡互相反对。在进化迭代囚犯的困境方案锦标赛中,每个机器人都以与收到的收益量成比例的比例复制。这种模仿生物学,其中成功消耗另一种动物的动物比一个人更容易繁殖,而且更容易复制,而且比花费能量打击另一种动物的动物。
参考
- Yudkowsky E。永恒的决策理论.从检索https://intelligence.org/files/tdt.pdf.
- LaVictoire, P。囚徒困境中的稳健合作.从检索http://lesswrong.com/lw/hmw/robust_cooperation_in_the_prisoners_dilemma/