通常,找到“纯”纳什均衡(其中没有发生随机化)相当容易,因为验证只需要比较少量潜在的回报。例如,考虑使用以下付款矩阵的游戏:据/p>
|
1据/td>
| 2据/td>
| 3.据/td>
|
1据/td>
| -1据/td>
| -2据/td>
| -1据/td>
|
2据/td>
| 2据/td>
| 2据/td>
| 1据/td>
|
3.据/td>
| -1据/td>
| -1据/td>
| 0.据/td>
|
在这个游戏中,每个玩家有三种策略可供选择,第一个玩家在相应的单元中获得值。他的目标是最大化他的分数,而第二球员的目标是最小化它。据/p>
即使他们知道他们的对手也没有任何激励,这次游戏的纳什均衡会发生这种游戏。这意味着据/p>
对于代表(纯)纳什均衡的单元格,它必须是其行的最小值和其列的最大值据/p>
因为这是唯一的方法,玩家都不会选择改变他们的策略。在上述游戏中,独特的纯平衡是玩家1选择策略2和玩家2选择策略3,既不是球员希望偏离由此产生的1。据/p>
当然,“纯粹”纳什均衡是混合策略的特殊情况(其中一个策略选择概率1),因此下面的更通用方法是普遍有效的。据/p>
在混合策略的情况下,情况变得稍微复杂,并且往往涉及优化策略,如据a href="//www.parkandroid.com/wiki/rearrangement-inequality/" class="wiki_link" title="重排不等式" target="_blank">重排不等式据/a>。例如,考虑以下游戏:每个玩家都可以显示一个或两个手指,据/p>
- 如果显示奇数的手指,则第一播放器得分为所示手指的数量。据/li>
- 如果显示偶数的手指,则第二播放器得分指定指示的数量。据/li>
这对应于支付矩阵据/p>
|
1据/td>
| 2据/td>
|
1据/td>
| 0,2据/td>
| 3,0.据/td>
|
2据/td>
| 3,0.据/td>
| 0,4.据/td>
|
它立即明显,这场游戏没有纯粹的均衡(如果任一播放器会选择在输掉时选择转移),因此必须进行混合策略的分析。令人惊讶的是,尽管问题的表观对称性,这场比赛中的纳什均衡有利于第一个玩家。据/p>
为了找到游戏的(或)纳什均衡,假设纳什均衡包括第一个选择1的第一播放器据S.P.an class="katex">
P.据/span>(和2概率据S.P.an class="katex">
1据/span>-据/span>P.据/span>),第二个玩家选择1概率据S.P.an class="katex">
问:据/span>。请注意,NASH的定理保证存在至少一个NASH均衡,因此此步骤有效。现在,玩家1的预期收益是据/p>
(据/span>0.据/span>-据/span>2据/span>)据/span>⋅据/span>P.据/span>⋅据/span>问:据/span>+据/span>(据/span>3.据/span>-据/span>0.据/span>)据/span>⋅据/span>P.据/span>⋅据/span>(据/span>1据/span>-据/span>问:据/span>)据/span>+据/span>(据/span>3.据/span>-据/span>0.据/span>)据/span>⋅据/span>(据/span>1据/span>-据/span>P.据/span>)据/span>⋅据/span>问:据/span>+据/span>(据/span>0.据/span>-据/span>4.据/span>)据/span>⋅据/span>(据/span>1据/span>-据/span>P.据/span>)据/span>⋅据/span>(据/span>1据/span>-据/span>问:据/span>)据/span>=据/span>-据/span>1据/span>2据/span>P.据/span>问:据/span>+据/span>7.据/span>P.据/span>+据/span>7.据/span>问:据/span>-据/span>4.据/span>
由于这是一种纳什均衡,播放器1会据em>不是据/em>选择调整据S.P.an class="katex">
P.据/span>会心据S.P.an class="katex">
问:据/span>。但是收益可以写作据S.P.an class="katex">
P.据/span>(据/span>7.据/span>-据/span>1据/span>2据/span>问:据/span>)据/span>+据/span>7.据/span>问:据/span>-据/span>4.据/span>, 因此,如果据/p>
-
问:据/span>>据/span>1据/span>2据/span>7.据/span>,球员1希望尽量减少据S.P.an class="katex">
P.据/span>(放据S.P.an class="katex">
P.据/span>=据/span>0.据/span>)据/li>
-
问:据/span>据据/span>1据/span>2据/span>7.据/span>,球员1希望最大化据S.P.an class="katex">
P.据/span>(放据S.P.an class="katex">
P.据/span>=据/span>1据/span>)据/li>
这意味着在纳什均衡点,据S.P.an class="katex">
问:据/span>=据/span>1据/span>2据/span>7.据/span>。据/p>
类似地,玩家2的预期收益是据/p>
(据/span>2据/span>-据/span>0.据/span>)据/span>⋅据/span>P.据/span>⋅据/span>问:据/span>+据/span>(据/span>0.据/span>-据/span>3.据/span>)据/span>⋅据/span>P.据/span>⋅据/span>(据/span>1据/span>-据/span>问:据/span>)据/span>+据/span>(据/span>0.据/span>-据/span>3.据/span>)据/span>⋅据/span>(据/span>1据/span>-据/span>P.据/span>)据/span>⋅据/span>问:据/span>+据/span>(据/span>4.据/span>-据/span>0.据/span>)据/span>⋅据/span>(据/span>1据/span>-据/span>P.据/span>)据/span>⋅据/span>(据/span>1据/span>-据/span>问:据/span>)据/span>=据/span>1据/span>2据/span>P.据/span>问:据/span>-据/span>7.据/span>P.据/span>-据/span>7.据/span>问:据/span>+据/span>4.据/span>
正如预期的那样,这是考虑到预期收益的总和应该为零(这是一个据S.trong>零和博弈据/strong>)。因此,通过类似地推理,据S.P.an class="katex">
P.据/span>=据/span>1据/span>2据/span>7.据/span>在纳什均衡点。据/p>
因此,在纳什均衡点,玩家1的预期效用是积极的,即据S.P.an class="katex">
1据/span>2据/span>1据/span>。这意味着游戏本质上是不公平的;通过选择1概率据S.P.an class="katex">
1据/span>2据/span>7.据/span>,球员1据S.trong>保证据/strong>至少需要支付据S.P.an class="katex">
1据/span>2据/span>1据/span>(玩家2选择相同的策略,以便最大限度地减少玩家1的预期收益)。据/p>
一般来说,两名球员都适应了相同的一般策略:计算预期的收益据em>其他据/em>玩家作为概率分布的函数,然后调整他们的“取消”另一个。另一种观看NASH定理的方法是注意,由于每个变量中预期的收益是线性的,因此该过程导致始终具有至少一个解决方案的线性方程系统。据/p>
Alice和Bob正在发挥900场摇滚剪刀,但Alice不允许在任何游戏中选择剪刀。如果两个玩家选择他们的策略据em>最佳据/em>(即达到纳什均衡),鲍勃的预期数量将获胜?据/p>
“最佳”意味着两个玩家都希望最大化他们获胜的游戏数量和对手赢的游戏数量之间的差异。据/p>