博弈理论
基本概念:囚徒困境
博弈论中的相互作用通常是根据定义明确的游戏两个或两个以上之间球员.为了说明这一点,考虑下面这个简单的游戏,通常被称为囚徒困境,在爱丽丝和鲍勃之间演奏。
囚徒困境。警方已经抓获了两名罪犯,并在不同的房间对他们进行审讯,因此他们无法相互沟通。他们提供了以下交易:
- 如果爱丽丝告发了鲍勃,爱丽丝就会被释放,鲍勃则会在监狱里待三年。(爱丽丝变节,鲍勃合作)
- 同样,如果鲍勃·斯蒂斯在爱丽丝上,鲍勃就自由而爱丽丝在监狱里度过了三年。(爱丽丝合作,鲍勃背叛)
- 如果他们两人都不告密,那么他们都要在监狱里呆一年。(相互合作)
- 如果他们都告密对方,那么他们都会被判两年监禁。(相互背叛)
在囚徒困境中,爱丽丝和鲍勃各自选择了一种策略,缺陷或者合作,总共四种可能的组合,每个组合对应于结果,或回报.因此可以得出如下结论支付矩阵,这说明了每种策略组合的回报。(下图中,订购的一对 表示Alice和Bob花费了 和 分别入狱三年。)
来看看为什么这个游戏叫做囚徒游戏两难的境地,想想每个玩家可能选择什么策略。假设每个囚犯的目标仅仅是最小化他或她在监狱中的时间,并且他或她不知道其他玩家可能选择什么策略。
考虑来自鲍勃的角度的游戏。从支付矩阵,很明显,无论爱丽丝选择哪种策略,鲍勃最大限度地减少了他在监狱中缺陷的时间。如果爱丽丝合作,鲍勃应该缺陷(因为他不会在监狱中没有时间而不是一年);如果爱丽丝缺陷,鲍勃也应该缺陷(因为他会在监狱里花费两年而不是三年)。与两名球员相对对称的游戏是与爱丽丝的角度相同,谁也应该缺陷。
因此,如果两个玩家都是理性的- 这是,如果他们希望最大化他们的收益 - 游戏将导致相互叛逃。据说互相叛逃是游戏的纳什均衡这是一套策略,没有参与者可以通过改变策略来提高收益。(通常,一个博弈可能有多个纳什均衡,但囚徒困境只有一个。)
在这种情况下,相互背叛并没有使参与人的收益最大化,也就是说,这种情况下的纳什均衡并没有最大化非常高效。(具体地说,帕累托有效的)事实上,纳什均衡也不是有效的解决方案,这是囚徒困境的核心所在。
有两个纳什均衡的博弈的一个例子是猎鹿.
猎鹿。两个猎人,爱丽丝和鲍勃,等待雄鹿,这将为两个猎人提供重要的寄托。野兔也出现,如果杀死,这将养活其中一个猎人。雄鹿靠近,最终将在猎人弓的范围内;但是,如果野兔被猎杀,猎人会扰乱森林并吓跑雄鹿。两个猎人都可以捕猎野兔。
- 如果只有爱丽丝能捕捉到野兔,爱丽丝就能得到一天的食物,而鲍勃就会挨饿。(爱丽丝变节,鲍勃合作)
- 同样地,如果只有鲍勃捕捉到野兔,鲍勃就能得到一天的食物,而爱丽丝就会挨饿。(爱丽丝合作,鲍勃背叛)
- 如果两个猎人都猎杀了这只鹿,这只鹿能给一个人提供四天的食物,那么在平分战利品后,每个猎人都能获得足够吃两天的食物。(相互合作)
- 如果它们都猎杀野兔,那么它们都能获得一天的食物。(共同背叛)
猎鹿不同于囚徒困境,因为有两个纳什均衡:两个猎人都可以背叛(猎兔)或合作(猎鹿)。并且,双方通过合作获得最优结果。很明显,完全理性的参与者会彼此推理对方会猎杀雄鹿,并且参与者会默认相互合作。
然而,在现实世界中,玩家可能是这样的风险规避:他或她可能预计其他球员未能发挥最佳的行动,从而依次缺陷。例如,想象一下,当其他玩家缺陷饥饿并死亡时,合作的后果(即,非常负债的回报)。雄鹿可能提供比野兔更好的收益,但每个球员都无法容忍其他选择缺陷的风险。
迭代游戏
然而,在现实中,当人类受试者被要求扮演囚徒困境时,往往会产生相互合作的结果。这是否表明人类是非理性的?也许,但不难简单地说,上面介绍的简单模型无法捕捉到现实世界问题的所有方面。首先,人类参与者可能看不到问题的本质以简单的回报矩阵为基础的囚徒困境。例如,鲍勃可能出于荣誉感而决定不告发其他囚犯。
即便如此,对囚徒困境中描述的基本情景进行简单的阐述,也可以帮助解释各种各样的行为。想想当一个人玩重复囚徒困境当前位置假设爱丽丝和鲍勃扮演囚徒困境 在迭代游戏中,策略不再是独立于其他玩家的策略而选择的单个移动,而是一个序列每一步的选择都可能考虑到上一步:例如,Bob可能选择合作,当且仅当Alice在上一步合作时。
例如,样本策略可能包括以下内容:
- 总是合作:每一步行动都要合作。
- 总是缺陷:每次移动都有缺陷。
- 随机:有可能 ,缺陷;否则,合作。
- 针锋相对的:如果对手在前一步棋上配合,则配合;否则,缺陷。第一步要合作。
与 固定的,一个简单的向后归纳证明纳什均衡总是缺陷。最后一步与非迭代的囚徒困境相同:显然,一个人应该背叛 搬家,因为不会播放进一步的动作。鉴于互相叛逃将被播放 第三步,那么为第三步而比赛也是理性的 移动。由此可见,双方玩家每走一步都应该叛变。
然而,如果 是概率决定的(也许游戏在每一步都有一些结束的概率)还是无限的,那么“最优”策略就不那么清楚了:所有可能的策略的集合战略空间,是非常大的。
尽管如此,通过模拟分析重复囚徒困境仍然可以取得进展。1980年,罗伯特·阿克塞尔罗德(Robert Axelrod)为重复囚徒困境锦标赛征集参赛作品(最终以概率确定)。来自业余爱好者和学者的意见书以计算机程序的形式指定了策略。14名参赛者中明显的胜利者是阿纳托尔·拉波波特,他提出了迄今为止最简单的策略:以牙还牙。继阿克塞尔罗德第二轮比赛后不久,他的比赛吸引了人们的注意他的比赛吸引了60多份参赛作品,有些相当复杂。胜利者再次是拉波波特,他再次以牙还牙
更复杂的分析重复囚徒困境和其他重复游戏的方法已经被使用,但阿克塞尔罗德的比赛仍然提供了一些启发性的见解,让人们了解哪些策略可能更成功。事实证明,尝试利用“友好”的合作策略是相当困难的,因为这样做会在与以牙还牙等互惠策略相匹配时造成严重的惩罚。针锋相对地反对高度合作和高度缺陷的策略,因为它会以同样的方式得到回报。尽管与高度合作的策略相比,针锋相对的策略不如高度缺陷的策略做得好,但与其他“针锋相对”的策略相比,针锋相对的策略做得好。
一报还一报的强大本质为合作的演变提供了一种似是而非的机制。在进化生物学或社会科学中,许多情况都不涉及单一的囚徒困境游戏,这往往会导致不合作,而是重复的互动。这种互动可能是类似于以牙还牙的互惠战略所产生的合作的基础。
还有更多类型的游戏
囚徒困境只是众多经常被研究的游戏之一。游戏不需要只在两个玩家之间进行,动作也不需要同时进行,甚至不需要确定性。
因为构成“游戏”的内容非常广泛,所以我们可以根据游戏的不同属性对其进行分类。
据说一个游戏的玩家有完美的信息如果所有玩家都知道每个玩家的移动顺序。A.组合游戏是A.确定性所有参与者都有完全信息的博弈。例如象棋、井字游戏和尼姆.一个组合对策被称为解决了当已知最优策略(如果存在)时。
据说一个游戏是一个零和游戏如果所有参与者的收益之和是常数(包括零)。本质上,没有一个玩家能够在不降低其他玩家收益的情况下获得更高的收益。
A.同时游戏是指所有玩家同时有效地移动,而在a中所有移动都是不同时的顺序游戏.象棋和井字游戏是顺序的。囚徒困境的基本形式是同步的,尽管我们可以明确地表述出一种迭代囚徒困境的形式,在这种形式中,移动是交错的(即顺序的)。对于后一种情况,使用决策树其中,在分支树上绘制了策略空间和收益,枚举所有可能的移动序列。
游戏也可能是不对称. 而两个玩家在囚徒困境中有着相同的选择,即对称的,还有许多例子在其中不是这种情况。在里面最后通牒博弈,一个人被要求为自己和另一个玩家分配一大笔钱。然后第二个玩家可以选择接受或拒绝他或她得到的那部分。
参考
[1] 囚徒困境中更有效的选择冲突解决杂志24: 379 - 403(1980)。