K级思维

K级思维指的是一类逻辑问题，其中所有的行动者都是完全理性的，并拥有无限的智慧。换句话说，所有的参与者都能够对自己的处境进行完美的推理，并且知道其他人都有同样的能力。无需进一步说明，术语“逻辑难题”或“逻辑问题”通常指的是这类情况。

k级思维在分析问题时非常有用纳什均衡游戏和情境。

但这太简单了。我所要做的就是神圣从我所知道的你：你是那种将毒物放入自己的高脚杯还是敌人的人？现在，一个聪明的人会把毒药放进自己的高脚杯，因为他会知道只有一个伟大的傻瓜会伸展到他给予的东西。我不是一个伟大的傻瓜，所以我明显不要在你面前选择葡萄酒。但是你必须知道我不是一个伟大的傻瓜，你会算上它，所以我可以显然不会在我面前选择酒。——维兹尼，《公主新娘》(1987)

正式定义

定义了k级思维递归地，以非理性的水平- $0.$ 为特定情况设计的播放器（通常是表演统一随机）和一个水平 - $K.$ 玩家(或深度 $K.$ 球员）基于所有其他参与者的假设基于他的行动 - $(k - 1)$ 思想家。例如，一个级别-2播放器假定其他人是一个级别的1级球员，又假定其他人都在随机玩。

无限智能被定义为具有无限/无限的深度，并且在K级思维问题中，常识是所有演员都有无限的深度。

例子

假设有一个游戏，参与者在0到100(包括100)之间选择一个数字，猜测的目标尽可能接近 $\压裂{2}{3}$ 尽可能平均。例如，如果五名球员选择56,66,39,60和47， $\压裂{2}{3}$ 平均值是 $35.7 \眉题{3}$ ，第三个玩家就赢了。

在这种情况下，级别-0播放器将像往常一样随机选择。1级1级玩家将假设每个其他玩家都是0级，所以他们会猜到平均到50左右，导致他们选择 $33. \ overline {3}$ 作为他们的号码。一个级别的球员会假设每个其他球员都是1级，谁会选择 $33. \ overline {3}$ ，所以他们选择 $22。\眉题{2}$ 作为他们的号码。Level-3玩家选择对等级-2播放器的最佳响应，依此类推，每个级别的最佳猜测减少。结果，当假设完美合理性的常见知识时，最佳猜测（违反直到）零。

另一个例子是关于双人游戏，其中有两堆硬币，最初分别包含4个和1个硬币。在游戏的每一轮，玩家可以选择拿更大的一堆硬币，或把每一堆硬币的数量加倍，以结束游戏。如果两个玩家都没有选择结束游戏，那么游戏也会在固定的回合数后结束。

在这种情况下，级别-0播放器由始终选择堆叠来定义。一级1级球员将假设他的对手是一个级别-0的球员，因此可以选择在除了他的最后一圈之外的每一个堆。一个级别的球员将选择在每次转弯的每一圈中加倍桩，因为他知道他是否要将成本翻倍，他的1级对手会选择结束游戏，导致较少的2级球员的硬币。同样，这会携带电感，因此无限智能的玩家会选择首先结束游戏。

向后归纳

上面的两个例子都说明了背后的思想逆向归纳法，这是通过向后工作确定最佳起动动作的过程：通过确定游戏的最后可能点的最佳动作，可以确定游戏的第二次可能点处的最佳动作，因此直到发现开始时间的最佳播放。

逆向归纳的主要优点是所有参与者都拥有完美的理性，所以通过确定任何参与者的最佳行动，游戏可以持续地简化为一个简单的游戏。例如，在上述翻倍游戏中，可能回合的数量在分析的每个步骤中都被有效地减少了，因为玩家会选择在最后几个可能回合结束游戏(因此，在任何时候)。

海盗游戏：

三个海盗发现了100枚金币，他们必须决定如何分配这些金币。他们决定最老的海盗应该提议发行，所有的海盗(包括提议者)将投票决定他们是接受发行，还是把提议者扔到海里，在这种情况下，第二老的海盗将提议发行，继续游戏。领带导致一个可接受的分布。

假设所有的海盗都是完全理性的、极度贪婪的、嗜血的(所以他们会投票把提议者扔到海里，除非他们能赚到更多的硬币)，最老的海盗能赚多少硬币?

假设游戏中只有两个最年轻的海盗。显然，老玩家会向自己提出100枚硬币的“分配”;由于关系转到提议者，因此保证该分发被接受。

因此，拟议者知道最年轻的海盗将投票给他所有人的任何一个分销，因为他会投票没有，他将没有硬币。因此，最古老的海盗可以通过给予最小的海盗单一硬币来获得99个硬币，赢得投票2至1。

这是上面看的海盗游戏的延伸：

战略主导地位

另一种分析是战略主导地位在这种策略中，严格比其他策略差的策略会作为可能的行动被丢弃，直到只剩下“合理的”策略。例如，另一种分析“平均2/3”游戏的方法如下:在两者之间选择一个猜测 $66年。\眉题{6}$ 100是任何其他猜测严格主导的，因为最终平均水平的2/3可能是这么大的。这有效地减少了最大可能的猜测 $66年。\眉题{6}$ ．然后，按照同样的逻辑，选择一个猜测 $44. \ overline {4}$ 和 $66年。\眉题{6}$ 完全被其他猜测所支配。这个逻辑继续下去，所以0严格地优于任何其他猜测，因此是最优策略。

同样的原则也适用于从额外证据作出的推论，即行动者从整个情景过程中所提供的信息中排除不可能开始的情况。

囚犯和帽子：

一个看守把三个囚犯聚集在一起，把他们排成一排，蒙上他们的眼睛。他说:“我有两顶黑帽子和三顶白帽子，我会把一顶戴在你们每个人的头上。如果你们中有人能猜出自己帽子的颜色，你们就可以自由了。但如果你猜错了，就会被处决。如果你不猜，什么也不会发生。”

监狱长取下后面犯人的眼罩，他能看见前面两个犯人的帽子。他说:“我不知道我的帽子的颜色。”

监狱长取下第二个囚犯的眼罩，他只能看到前面囚犯的帽子。他说:“我不知道我帽子的颜色。”

最后，守望者在最后一个囚犯的蒙上眼睛蒙上眼睛，他说“我知道我帽子的颜色”。它是什么颜色的，囚犯是如何知道的？

他戴着一顶白色的帽子。

后面的囚犯不知道他帽子的颜色，所以其他两个囚犯都知道他们不是都戴着黑色的帽子(否则，后面的囚犯会知道他的帽子是白色的)。如果第二个犯人看到前面的犯人戴着黑帽子，他就能说他的帽子是白的，因为他已经知道他们不都戴着黑帽子。但是第二个囚犯不知道他帽子的颜色，所以他一定看到前面的囚犯戴着一顶白色的帽子。因此，第一个囚犯知道他戴着一顶白色的帽子。

人口问题:

人口普查员到达一位逻辑学家的家。

人口普查队：“你有多少个孩子，他们多大了？”
逻辑学家：“我有3个孩子。他们年龄的产品是36岁。“
C：“什么？你不能告诉我他们的年龄吗？“
L:“他们的年龄和我家的门牌号是一样的。”
C:“那真的帮不了我。”
L：“我的大使是在学习小提琴。”
C:“啊，我明白了。祝你愉快!”

三个孩子的年龄是多少？

孩子们的年龄分别是2岁、2岁和9岁。

由于人口普查者在讲述儿童年龄之后没有足够的信息，因此必须有多个数字三倍，与产品36。我们可以列出可能性：

岁和岁和

1, 1, 36 38. 1、6、6 13.

1、2、18 21. 2,2,9 13.

1,3,12 16. 2,3,6 11.

1,4,9 14. 3,3,4 10.

因此，逻辑学家的门牌号必须是13，因为任何其他的数字都可以让人口普查员计算出他们的年龄。

最古老的孩子正在学习小提琴的最终信息，告诉普查接受者是一个最古老的孩子，从而裁决孩子的可能性是1,6和6.唯一的剩余可能性是孩子的年龄是2,2和9。

实际应用

在古典原则下，所有参与者都被认为是拥有的常识完美的理性，意味着每个玩家都知道其他球员是完全理性的（并且他们意识到其他玩家意识到其他球员是理性等）。然而，这通常是实际设置中的情况，因为在实际游戏中很少发生平衡。

事实上，完美的理性代理经常是一个缺点，因为他们高估了其他玩家的深度。例如，在前一节描述的“平均2/3”博弈中，经典原则表明完全理性的行动者会选择数字0。然而，实际中奖的数字通常要高得多。例如，21.6是在一个有19,000多人参与的比赛中获胜的数字[1]，这个数字略低于二级思考者会选择的数字。有趣的是，尽管0级思维通常被认为只存在于高深度策略的计算中，但在这个实验中，人们看到了接近100次的多次猜测(尽管事实是，获胜者必须是最多的) $\ frac {2} {3} \ cdot 100 = 66。\ overline {6}$ ，这表明一些玩家表现出了0级思维。

同样，在硬币游戏中，古典原则表明，应该选择首先结束游戏。然而，在CALTECH在CALTECH进行的实验中，最多四轮比赛，94％的参与者在第一次转弯时翻了一番，不到一半展示的水平-3思维或更高。当实验用六轮比赛重复时，只有2％的比赛在第一圈结束。[2]

有趣的是，当国际象棋祖母司发挥加倍游戏时，他们通常选择在对阵学生科目时加倍，但选择在对抗其他奶房时结束游戏[3]。这表明玩家考虑到他们的特定对手，而不是使普遍假设。

尽管如此，玩家在多次玩同一款游戏后还是倾向于趋于平衡。例如，在加州理工学院的实验中，前两轮游戏中40%的游戏表现出0级或1级思维，但在随后的8轮游戏中只有19%的游戏表现出同样的思维，第一轮游戏结束的游戏比例从0上升到8%，这表明“学习”发生了。这表明，只要有足够的时间，游戏最终会达到平衡状态。在这个意义上，k -水平思维可以被视为经典原理的概括，不仅分析平衡状态，而且分析达到平衡状态的过程。

参考文献

[1] Astrid Schou。在不合理的情况下(翻译:猜测 - 一个人物竞争表明我们是不合理的）。从http://politiken.dk/oekonomi/ece123939/gaett-et-tal-konkurrence-afsloerer-at-vi-er-irrationel/le/tal-erierranceLle/检索2016年1月19日

[2] Teck-Hua Ho和Xuanming Su。《Centipede Games》中的动态Level-k模型．2016年1月19日从http://rady.ucsd.edu/faculty/seminars/2011/papers/hua-ho.pdf检索。

[3] Levitt, S. D.， J. A. List, and S. E. Sadoff(2009)，《将军:探索国际象棋玩家的逆向归纳》，工作论文，芝加哥大学经济系。

测验

相关......

内容

人口普查员到达一位逻辑学家的家。