【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡

您所在的位置:网站首页 均衡分析法实例图 【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡

【科普】博弈论之胆小鬼博弈、囚徒困境、智猪博弈与纳什均衡

2023-07-03 21:53| 来源: 网络整理| 查看: 265

目录 一、前言1.1 博弈论1.2 纳什1.3 胆小鬼博弈1.4 囚徒困境1.5 智猪博弈 二、纳什均衡2.1 纳什均衡定义2.2 悖论 结语

一、前言

在博弈论中,纳什均衡(Nash equilibrium),又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。

1.1 博弈论

博弈论(英语:Game Theory),又译为对策论或赛局理论,是经济学的一个分支,1944年冯·诺伊曼与奥斯卡·摩根斯特恩合著《博弈论与经济行为》,标志着现代系统博弈理论的的初步形成,因此他被称为“博弈论之父”。博弈论被认为是20世纪经济学最伟大的成果之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。 其中一个有名有趣的应用例子是囚徒困境。

1.2 纳什

约翰·福布斯·纳什(John Forbes Nash Jr.,1928年6月13日-2015年5月23日),美国数学家,前马萨诸塞理工学院摩尔荣誉讲师,主要研究博弈论、微分几何学和偏微分方程。晚年为普林斯顿大学的资深研究数学家。

在这里插入图片描述 1950年,22岁的纳什他以非合作博弈(Non-cooperative Games) 为题的博士论文毕业并获得美国普林斯顿大学的博士学位。他在仅仅28页的博士论文中提出了一个重要概念,也就是后来被称为“纳什均衡”的博弈理论,这成为博弈论中一项重要突破,并广泛运用在经济学、计算机科学、演化生物学、人工智能、会计学、政策和军事理论等方面,这些研究的四篇主要论文分别是: 【1】Equilibrium points in n-person games 【2】The Bargaining Problem 【3】Non-Cooperative Games 【4】Two–Person Cooperative Games

除了“纳什均衡”,他最重要的数学成就是在微分几何和偏微分方程的领域,特别是黎曼流形等距嵌入到欧氏空间的一系列结果。

在1959年之后,由于出现精神上的症状,他的研究生涯曾经中断,在1959年及1961年两度进入医院疗养,被诊断为思觉失调症。纳什拒绝接受精神药物治疗,在1970年后,症状逐渐好转,因此再度回到学术研究工作。他这段时间的经历,由Sylvia Nasar写成传记,并翻拍为电影《美丽心灵》,使得他的事迹广为人知。

2015年5月23日因车祸不幸身亡。

1.3 胆小鬼博弈

胆小鬼博弈(Chicken Game)是博弈论中一个影响深远的模型。其基本原理是,一个玩家让步对于双方都有好处,而玩家的最佳选择取决于其对手会做什么:如果对手让步,那本方就不应该让步,但如果对手不让步,本方就应该让步。简而言之就是“不要命的最大”。 “胆小鬼博弈”这一名称的由来的由来是一种危险的游戏,游戏中两名车手相对驱车而行。如果两人拒绝转弯,任由两车相撞,最终两人都会死于车祸;但如果有一方转弯,而另一方没有,那么转弯的一方会被耻笑为“胆小鬼”(chicken),另一方胜出,因此这博弈模型在英文中称为“The Game of Chicken”(懦夫游戏),该术语在政治学和经济学中普遍使用。收益矩阵用(X,X)表示,其可以用下表表示:

表1 博弈过程的收益矩阵 示弱死磕示弱(2,2)(1,3)死磕(3,1)(0,0)

认怂固然丢面子,但相比玉石俱焚的结果来说,保命显然更重要。因此对一个足够理性的人来说,应该在他能够控制的最后时刻选择果断认怂。而如果甲方相信乙方是一个足够理性的人的话,那他应该能够预料到乙方会在最后时刻放弃,所以甲方的最佳策略是死磕到底,对应的结果就是(3,1),类似的情况反转过来是(1,3)。当然要是双方都这么想的话,最后的结果很可能是(0,0)。

有趣的是,在胆小鬼博弈中当一方的选择受到了限制时,其赢面可能会变大。例如,甲方的方向盘被锁死,不得不选择死磕的话,乙方再傻也会知道识时务者为俊杰,选择认怂的结果 1要远好于同归于尽的 0。

通常,(3,1)和 (1,3)被称为胆小鬼博弈的纳什均衡点,即在这个状态下,如果一方不改变其策略,不论对方采取什么策略都不会有更大收益。例如,对于(3,1)而言,甲方心意已决,就算乙方将对策由认怂改为死磕,结果也是两败俱伤而不会收益更高。类似的,如果乙方已经决定认怂,甲方不再死磕也选认怂的话,其收益将从 +1 变为 0。 在这里插入图片描述

这种博弈也被用于描述核战争中的相互保证毁灭,特别是古巴导弹危机。

参考:人类接近毁灭的危机:古巴导弹危机是怎么解决的?李永乐老师讲胆小鬼博弈

事实上,这也属于胆小鬼博弈: 在这里插入图片描述

1.4 囚徒困境

一个经典的囚徒困境描述如下:警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别审讯二人,并向双方提供以下选择:认罪并作证检控对方(坦白)或是抗拒。 在这里插入图片描述

若一人选择坦白,而对方选抗拒,则此人将立刻获得释放,另外一人将被判10年。

若二人都选择坦白,则二人同样判5年。若二人都选择抗拒,则二人同样判监1年。

我们可以用一张表格来表述:

表2 博弈过程的收益矩阵 坦白抗拒坦白(-5,-5)(0,-10)抗拒(-10,0)(-1,-1)

如果你是其中之一,只考虑尽量使自己服刑年份最小化的话,你会怎么选?我相信大部分的人会选择“坦白”,确实有太多理由让人选择坦白了,比如有人坚信对方会背叛你,而你不愿意选择抗拒而服刑10年,所以你选择坦白而服刑5年。他的理由对他来说已经很充分了,但是我们还需要考虑另一种情况,就是乙坚信甲不会背叛他,那么乙应该选择什么?乙还是应该选择坦白,因为乙选择坦白就能立即获释,而乙选择合作还需要服刑半年。在这种情况下,无论甲作何选择,对乙来说选择背叛总是优于选择合作,那么我们称坦白是乙的“优势策略”。无论是实验的事实还是简单的分析,都告诉我们背叛是每个人的最佳选择。 所以最终两个人都会选择坦白,而同服刑5年,这就是囚徒困境的结果。

1.5 智猪博弈

在博弈论中,“智猪博弈”是一个著名的纳什均衡的例子。 在这里插入图片描述

假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会消耗2个单位的体力。按钮和猪食槽在相反位置,按按钮的猪要付出2个单位的成本,并且丧失了先到槽边进食的机会。 若小猪先到槽边进食,因为体量较小,进食的速度一般,最终大小猪吃到食物的比率是6∶4;若同时到槽边进食,大猪进食速度加快,最终大小猪收益比是7∶3;若大猪先到槽边进食,大猪体量较大,最终大小猪收益比9∶1。 那么,在两头猪都有智慧的前提下,最终结果是:小猪选择等待,大猪去按按钮。 原因很简单: 在大猪选择按按钮的前提下,小猪选择等待的话,小猪可得到4个单位的纯收益,大猪得到的6个单位,付出2个单位的成本,实得4个单位;而小猪和大猪同时行动的话,则它们同时到达食槽,分别得到1个单位和5个单位的纯收益(付出4个单位的成本);在大猪选择等待的前提下,小猪如果行动的话,小猪只能吃到1个单位,则小猪的收入将不抵成本,纯收益为-1单位;如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,小猪等待还是要优于行动。 在这里插入图片描述

表3 博弈过程的收益矩阵 行动等待行动(5,1)(4,4)等待(9,-1)(0,0)

从矩阵中可以看出, 大猪选择行动的时候,小猪如果行动,小猪其收益是1。 大猪选择行动,小猪等待的话,小猪收益是4。 大猪选择等待的时候,小猪如果行动的话,小猪其收益是-1, 大小猪都等待的话,大小猪收益都是0。 综合来看,无论大猪是选择行动还是等待,小猪的选择都将是等待,即等待是小猪的占优策略。反观大猪,明知小猪不会去按按钮,但是去按按钮总比不按强,所以只好亲力亲为了。而大猪行动,小猪等待,即(4,4)称为纳什均衡点。

二、纳什均衡 2.1 纳什均衡定义

纳什均衡(Nash equilibrium)是一个经济学上的概念,又称非合作博弈(Non-cooperative game)均衡,由诺贝尔经济学奖,博弈论创始人约翰·纳什提出。 在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。一个策略组合被称为纳什平衡,当每个博弈者的平衡策略都是为了达到自己期望收益的最大值,与此同时,其他所有博弈者也遵循这样的策略。

在博弈论中,如果每个参与者都选择了自己的策略,并且没有玩家可以透过改变策略而其他参与者保持不变而获益,那么当前的策略选择的集合及其相应的结果构成了纳什均衡。即若 p i ( s ) = m a x r i [ p i ( s ; r i ) ] {\displaystyle p_{i}(s)=max_{r_{i}}[p_{i}(s;r_{i})]} pi​(s)=maxri​​[pi​(s;ri​)],则称s为纳什均衡点, 其中: p i {\displaystyle p_{i}} pi​为参与者i的收获(payoff), s i {\displaystyle s_{i}} si​代表所有参与者之策略, r i {\displaystyle r_{i}} ri​代表参与者i的一种可能策略, ( s ; r i ) {\displaystyle (s;r_{i})} (s;ri​)指参与者i单方面改变策略为 r i {\displaystyle r_{i}} ri​。

其经典的例子就是囚徒困境(上一节中已经进行介绍)。而(-5,-5)就是囚徒困境的纳什均衡点(也叫非合作均衡)。

通俗的讲,当所有其他人都不改变策略时,为了让自己的收益最大,任何一方都不会(或者无法)改变自己的策略,这个时候的策略组合就是一个纳什均衡。换言之,在此情况下,无一参与者可以“独自行动”(即单方面改变决定)而增加收获。

2.2 悖论

我们可以从“纳什均衡”中引出亚当·斯密的理论“看不见的手”的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。

结语

看到最后,或许你有些许收获,或许你一脸懵逼,但玩一局游戏再走吧,在这里,你能体会到博弈论的奥妙所在:信任的进化

参考: 【1】约翰·福布斯·纳什



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3