【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡

您所在的位置：网站首页 › 均衡分析法实例图 › 【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡

【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡

2023-07-03 21:53| 来源: 网络整理| 查看: 265

目录一、前言1.1 博弈论1.2 纳什1.3 胆小鬼博弈1.4 囚徒困境1.5 智猪博弈二、纳什均衡2.1 纳什均衡定义2.2 悖论结语

一、前言

在博弈论中，纳什均衡（Nash equilibrium），又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。

1.1 博弈论

博弈论（英语：Game Theory），又译为对策论或赛局理论，是经济学的一个分支，1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》，标志着现代系统博弈理论的的初步形成，因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。其中一个有名有趣的应用例子是囚徒困境。

1.2 纳什

约翰·福布斯·纳什（John Forbes Nash Jr.，1928年6月13日－2015年5月23日），美国数学家，前马萨诸塞理工学院摩尔荣誉讲师，主要研究博弈论、微分几何学和偏微分方程。晚年为普林斯顿大学的资深研究数学家。

在这里插入图片描述 1950年，22岁的纳什他以非合作博弈（Non-cooperative Games）为题的博士论文毕业并获得美国普林斯顿大学的博士学位。他在仅仅28页的博士论文中提出了一个重要概念，也就是后来被称为“纳什均衡”的博弈理论，这成为博弈论中一项重要突破，并广泛运用在经济学、计算机科学、演化生物学、人工智能、会计学、政策和军事理论等方面，这些研究的四篇主要论文分别是：【1】Equilibrium points in n-person games 【2】The Bargaining Problem 【3】Non-Cooperative Games 【4】Two–Person Cooperative Games

除了“纳什均衡”，他最重要的数学成就是在微分几何和偏微分方程的领域，特别是黎曼流形等距嵌入到欧氏空间的一系列结果。

在1959年之后，由于出现精神上的症状，他的研究生涯曾经中断，在1959年及1961年两度进入医院疗养，被诊断为思觉失调症。纳什拒绝接受精神药物治疗，在1970年后，症状逐渐好转，因此再度回到学术研究工作。他这段时间的经历，由Sylvia Nasar写成传记，并翻拍为电影《美丽心灵》，使得他的事迹广为人知。

2015年5月23日因车祸不幸身亡。

1.3 胆小鬼博弈

胆小鬼博弈（Chicken Game）是博弈论中一个影响深远的模型。其基本原理是，一个玩家让步对于双方都有好处，而玩家的最佳选择取决于其对手会做什么：如果对手让步，那本方就不应该让步，但如果对手不让步，本方就应该让步。简而言之就是“不要命的最大”。 “胆小鬼博弈”这一名称的由来的由来是一种危险的游戏，游戏中两名车手相对驱车而行。如果两人拒绝转弯，任由两车相撞，最终两人都会死于车祸；但如果有一方转弯，而另一方没有，那么转弯的一方会被耻笑为“胆小鬼”（chicken），另一方胜出，因此这博弈模型在英文中称为“The Game of Chicken”（懦夫游戏），该术语在政治学和经济学中普遍使用。收益矩阵用（X,X）表示，其可以用下表表示：

表1 博弈过程的收益矩阵示弱死磕示弱（2，2）（1，3）死磕（3，1）（0，0）

认怂固然丢面子，但相比玉石俱焚的结果来说，保命显然更重要。因此对一个足够理性的人来说，应该在他能够控制的最后时刻选择果断认怂。而如果甲方相信乙方是一个足够理性的人的话，那他应该能够预料到乙方会在最后时刻放弃，所以甲方的最佳策略是死磕到底，对应的结果就是（3，1），类似的情况反转过来是（1，3）。当然要是双方都这么想的话，最后的结果很可能是（0，0）。

有趣的是，在胆小鬼博弈中当一方的选择受到了限制时，其赢面可能会变大。例如，甲方的方向盘被锁死，不得不选择死磕的话，乙方再傻也会知道识时务者为俊杰，选择认怂的结果 1要远好于同归于尽的 0。

通常，（3，1）和（1，3）被称为胆小鬼博弈的纳什均衡点，即在这个状态下，如果一方不改变其策略，不论对方采取什么策略都不会有更大收益。例如，对于（3，1）而言，甲方心意已决，就算乙方将对策由认怂改为死磕，结果也是两败俱伤而不会收益更高。类似的，如果乙方已经决定认怂，甲方不再死磕也选认怂的话，其收益将从 +1 变为 0。在这里插入图片描述

这种博弈也被用于描述核战争中的相互保证毁灭，特别是古巴导弹危机。

参考：人类接近毁灭的危机：古巴导弹危机是怎么解决的？李永乐老师讲胆小鬼博弈

事实上，这也属于胆小鬼博弈：在这里插入图片描述

1.4 囚徒困境

一个经典的囚徒困境描述如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯，分别审讯二人，并向双方提供以下选择：认罪并作证检控对方（坦白）或是抗拒。在这里插入图片描述

若一人选择坦白，而对方选抗拒，则此人将立刻获得释放，另外一人将被判10年。

若二人都选择坦白，则二人同样判5年。若二人都选择抗拒，则二人同样判监1年。

我们可以用一张表格来表述：

表2 博弈过程的收益矩阵坦白抗拒坦白（-5，-5）（0，-10）抗拒（-10，0）（-1，-1）

如果你是其中之一，只考虑尽量使自己服刑年份最小化的话，你会怎么选？我相信大部分的人会选择“坦白”，确实有太多理由让人选择坦白了，比如有人坚信对方会背叛你，而你不愿意选择抗拒而服刑10年，所以你选择坦白而服刑5年。他的理由对他来说已经很充分了，但是我们还需要考虑另一种情况，就是乙坚信甲不会背叛他，那么乙应该选择什么？乙还是应该选择坦白，因为乙选择坦白就能立即获释，而乙选择合作还需要服刑半年。在这种情况下，无论甲作何选择，对乙来说选择背叛总是优于选择合作，那么我们称坦白是乙的“优势策略”。无论是实验的事实还是简单的分析，都告诉我们背叛是每个人的最佳选择。所以最终两个人都会选择坦白，而同服刑5年，这就是囚徒困境的结果。

1.5 智猪博弈

在博弈论中，“智猪博弈”是一个著名的纳什均衡的例子。在这里插入图片描述

假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会消耗2个单位的体力。按钮和猪食槽在相反位置，按按钮的猪要付出2个单位的成本，并且丧失了先到槽边进食的机会。若小猪先到槽边进食，因为体量较小，进食的速度一般，最终大小猪吃到食物的比率是6∶4；若同时到槽边进食，大猪进食速度加快，最终大小猪收益比是7∶3；若大猪先到槽边进食，大猪体量较大，最终大小猪收益比9∶1。那么，在两头猪都有智慧的前提下，最终结果是：小猪选择等待，大猪去按按钮。原因很简单：在大猪选择按按钮的前提下，小猪选择等待的话，小猪可得到4个单位的纯收益，大猪得到的6个单位，付出2个单位的成本，实得4个单位；而小猪和大猪同时行动的话，则它们同时到达食槽，分别得到1个单位和5个单位的纯收益（付出4个单位的成本）；在大猪选择等待的前提下，小猪如果行动的话，小猪只能吃到1个单位，则小猪的收入将不抵成本，纯收益为-1单位；如果小猪也选择等待的话，那么小猪的收益为零，成本也为零，总之，小猪等待还是要优于行动。在这里插入图片描述

表3 博弈过程的收益矩阵行动等待行动（5，1）（4，4）等待（9，-1）（0，0）

从矩阵中可以看出，大猪选择行动的时候，小猪如果行动，小猪其收益是1。大猪选择行动，小猪等待的话，小猪收益是4。大猪选择等待的时候，小猪如果行动的话，小猪其收益是-1，大小猪都等待的话，大小猪收益都是0。综合来看，无论大猪是选择行动还是等待，小猪的选择都将是等待，即等待是小猪的占优策略。反观大猪，明知小猪不会去按按钮，但是去按按钮总比不按强，所以只好亲力亲为了。而大猪行动，小猪等待，即（4，4）称为纳什均衡点。

二、纳什均衡 2.1 纳什均衡定义

纳什均衡（Nash equilibrium）是一个经济学上的概念，又称非合作博弈（Non-cooperative game）均衡，由诺贝尔经济学奖，博弈论创始人约翰·纳什提出。在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下，其选择的策略是最优的，那么这个组合就被定义为纳什均衡。一个策略组合被称为纳什平衡，当每个博弈者的平衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。

在博弈论中，如果每个参与者都选择了自己的策略，并且没有玩家可以透过改变策略而其他参与者保持不变而获益，那么当前的策略选择的集合及其相应的结果构成了纳什均衡。即若 p i ( s ) = m a x r i [ p i ( s ; r i ) ] {\displaystyle p_{i}(s)=max_{r_{i}}[p_{i}(s;r_{i})]} pi(s)=maxri[pi(s;ri)]，则称s为纳什均衡点，其中： p i {\displaystyle p_{i}} pi为参与者i的收获（payoff）， s i {\displaystyle s_{i}} si代表所有参与者之策略， r i {\displaystyle r_{i}} ri代表参与者i的一种可能策略， ( s ; r i ) {\displaystyle (s;r_{i})} (s;ri)指参与者i单方面改变策略为 r i {\displaystyle r_{i}} ri。

其经典的例子就是囚徒困境（上一节中已经进行介绍）。而（-5，-5）就是囚徒困境的纳什均衡点（也叫非合作均衡）。

通俗的讲，当所有其他人都不改变策略时，为了让自己的收益最大，任何一方都不会（或者无法）改变自己的策略，这个时候的策略组合就是一个纳什均衡。换言之，在此情况下，无一参与者可以“独自行动”（即单方面改变决定）而增加收获。

2.2 悖论

我们可以从“纳什均衡”中引出亚当·斯密的理论“看不见的手”的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。

结语

看到最后，或许你有些许收获，或许你一脸懵逼，但玩一局游戏再走吧，在这里，你能体会到博弈论的奥妙所在：信任的进化

参考：【1】约翰·福布斯·纳什

【本文地址】

【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡

【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡

今日新闻

推荐新闻