博弈论

您所在的位置:网站首页 单人博弈例子有哪些 博弈论

博弈论

2024-07-15 15:26| 来源: 网络整理| 查看: 265

静态博弈指的是博弈各方同时做出决策,或者说决策有先后顺序,但是在做决策时博弈者互相看不到其他博弈者的策略,一旦做出决策后就只能等待博弈的结果,其对博弈的发展也不能产生任何影响。静态博弈又称为“同时决策博弈”(Simultaneous Move Games)。静态博弈有很多例子,比如之前介绍的“囚徒困境”、“猜硬币”、“剪刀·石头·布”等。博弈两种表现形式,一种是策略式博弈(Normal Form Game);另外一种是扩展形式的静态博弈(Extensive Form Game)。一般前者用收益矩阵来表示,后者用树形结构来表示。前面我们探讨了纳什均衡及其存在性的问题,那么如何求解纳什均衡呢?这里继续讨论一些求解纳什均衡的一般方法。

一、划线法

求解纳什均衡最基本的方法是用最优反应函数,在许多博弈问题中,为了简单表达,将最佳反应函数用图示方法展现出来,就给出了可视化的划线法和箭头法来求解博弈。 划线法是通过将某个参与人的策略效用两两比较,逐次确定相对优势策略,最终在这种比较中,选择出最优的策略组合。其方法为:在每一个博弈方针对对方每一个策略的最大可能得益下划一条短线,双方的相对优势策略都这样划线以后,如果那个格子里面的两个数字下面都划了短线,这个格子对应的(相对优势)策略组合,就是一个纳什均衡。 以下图博弈\(G\)为例来说明划线法的使用。首先考虑参与人1的策略,当他使用“上”策略时,最大的效用为1,于是我们在他使用“上”策略时收获的两个效用1下各划一道横线;同理,当他使用“下”策略时,最大效用为2,于是在数字2下划线。再考虑参与人2,当他使用“左”策略时,收获的最大效用为4,于是在4下面划线,当他使用“中”策略时,收获的最大效用为3,于是在3下面划线,当他使用“右”策略时,收获的最大效用为1,于是在1下面划线。由此,我们看到,这个博弈矩阵中只有效用组合(1,3)下划了两道线,因此其对应的策略组合{上,中}为均衡解。

示例1 示例2 二、箭头法

箭头法的核心思想是:基于当前状况如何能继续将效用最大化。它是对博弈中的每个策略组合进行分析,判断各博弈方是否能够通过单独改变自己的策略而改善自己的得益,如果可以,则从所考察的策略组合的得益引一个箭头到改变策略后的策略组合对应的得益。这样对每个可能的策略组合都分析考察过以后,根据箭头反映的情况来判断博弈的结果。因此箭头法是一种动态的求解方法。一个箭头可以形象地把博弈方的“理性人”本质表示出来,从策略选择的改变带来得益的增加。博弈矩阵中没有箭头指出的格子所代表的策略组合,表示每个博弈方都没有单独改变策略选择的倾向,这个策略组合就是纳什均衡。 以博弈\(G\)为例,来演示箭头法。我们假定目前博弈的策略组合为:{下,左}。此时参与人1的效用为0,那么他可以通过改变策略的方式来提高自己的效用,为此他可以改变选择使用“上”策略,那么我们从组合(0,4)(0,4)(0,4)出发,往组合(1,0)(1,0)(1,0)的方向划箭头,此时的策略组合为:{上,左},再来分析参与人2,改用“中”策略和“右”策略都可以提高其效用,且同时若采用“右”策略,则他还可以更换“中”策略以使自己的效用更大,因此我们需要划三道箭头。此时的策略为{上,中}。再考虑剩余的情况,如果采用{下,中},那么双方的效用都只会变小,因此我们只能从(0,2)(0,2)(0,2)向(1,3)(1,3)(1,3)划箭头,依次分析完所有的情况,我们得到下图:

可以发现,只有(1,3)的组合没有被箭头所指出,因此它是一个稳定的策略组合的效用。所以{上,中}为均衡解。

示例3 示例4 三、严格劣策略消去法

如果在一个博弈中存在“占优策略均衡”,那么自然是好分析的,然而大部分博弈是没有“占优策略均衡”的,我们这里考虑用“严格劣策略消去法”来化简博弈。 该方法的求解过程为:首先找出某个博弈方的严格劣策略,将它删除,然后重新构造不包含这个劣策略的博弈;然后,继续删除新的博弈中某个博弈方的严格劣策略;重复这一个过程直到剩下唯一的策略组合为止,这个策略组合便是博弈的均衡解。 在这里提到的严格劣策略(Strictly Dominated strategies),它指的是某一个博弈中,不管其他博弈者选择什么样的策略,我的“策略”的收益总是比我其他某个策略的收益低,这个“策略”便是严格劣策略。接下来举一个具体的例子来展示严格下策反复消去法求解博弈的过程。假设有一个博弈如下矩阵所示,

其中,P1(Player1)和P2(Player2)代表两个博弈者,P1有两个策略A和B,P2有三个策略甲、乙、丙。根据收益矩阵不难这个博弈没有“占优策略均衡”,因为P1的两个策略不存在占优策略,P2的三个策略也不存在占优策略。 我们来分析是否可以用严格劣策略消去法。先看P2,如果有严格劣策略,说明不管P1选什么,P2的某个策略收益比P2其他某个策略收益小。我们发现不论P1选“A”还是“B”,P2选择“丙”的收益都比选择“乙”的收益低。因此,策略“丙”是相对于策略“乙”的严格下策,可以将策略“丙”删除,因为P2永远不会选“丙”。新的博弈如下图所示

在新的博弈中,P1和P2都只有两个策略,我们再来分析P1,发现无论P2选择“甲”还是“乙”,P1选“B”的收益比选“A”的收益低,也就是“B”是相对于“A”的严格劣策略,因此P1不可能会选择“B”,我们将这个策略删除。新的博弈如下图

可以看到,新的博弈中P1只有“A”这一个策略,P2有“甲”和“乙”两个策略,我们再比较P2的两个策略,发现“甲”是相对于“乙”的严格劣策略,因此我们删掉P2的“甲”策略。于是博弈的最终结果为P1选择“A”,P2选择“乙”。

四、纳什均衡举例 4.1 竞争博弈——斗鸡博弈

曾经的话说某一天,在斗鸡场上有两只好战的公鸡发生遭遇战。这时,公鸡有两个行动选择:一是退下来,一是进攻。如果一方退下来,而对方没有退下来,对方获得胜利,这只公鸡则很丢面子;如果对方也退下来双方则打个平手;如果自己没退下来,而对方退下来,自己则胜利,对方则失败。如果两只公鸡都前进,则两败俱伤。热播电视剧《亮剑》中曾有过这样一句话让人印象深刻:“古时候的剑客在遇到对手的时候,即使明知自己不是敌人的对手,也要拔出自己的宝剑,就是死在敌人的剑下也毫无怨言,这就叫亮剑”。诚然,这种精神与气势在战场上是难能可贵的,而且也是必要的,但是在生活中面对狭路相逢的困局的时候,你是否还会亮剑而上呢?

利用前面纳什均衡求法,斗鸡博弈有两个纳什均衡,如何摆脱斗鸡困境? 方案一:妥协。在有进有退的斗鸡博弈中。退的乙方可能会有所损失并丢失面子,但总比伤痕累累甚至丧命强。 方案二:让对手主动退出。向对方说明博弈的现实结果,把选择权交给对方。 方案三:凡事且留三分余地。与人打交道发生冲突时,要懂得适可而止,不要过分嚣张,不给对手留下丝毫余地。

4.2 协调博弈——性别战

夫妻二人看电视,男方喜欢看球赛,女方喜欢看韩剧。但如果就自己看自己的当然没啥意思,最好还是两个人看同样的东西,这样可以交流。以下为收益矩阵,对角线上为双方看同样的节目,是最好的结果;如果只看各自想看的,那么结果一般;如果为对方着想,都看了对方想看的,反而结果最差。

利用前面纳什均衡求法,协调博弈有两个纳什均衡,选择取决于博弈方的沟通与协调。

二人猎鹿是最优结果。但一方猎鹿的前提是知道对方也会猎鹿,并且知道对方也知道自己要去猎鹿(即双方猎鹿是共同知识)。如果双方不沟通,那么根据期望收益最大化,双方猎鹿和猎兔的概率各为50%。但考虑到人是厌恶风险的,所以最终会选择各自猎兔了。为了达到更好的结果,双方应该提前沟通好。但沟通往往有成本,如果沟通成本小于猎鹿带来的超额收益,那么还是可以沟通的。

4.3 公共地悲剧(The Tragedy of the Commons)

公共资源:任何个人或企业都不拥有所有权的自然资源,或人类生产的供大众免费使用的设施和财物。其有两个特点(1)没有个人或企业拥有所有权;(2)大众可自由利用。 1968年,哈定(Hardin)提出若人们完全从自利动机出发自由利用公共资源,公共资源会被低效使用、过度利用、甚至浪费破坏。下面以放牧为例,考虑每只羊的产出函数是羊群数量的减函数:

\[V=V(Q)=V(q_1+q+2+...+q_n) \]

每只羊的成本是\(c\),则收益函数为$$u_i=q_iV(Q)-q_ic.$$ 给定数值:假设\(n=3,c=4,V=100-(q_1+q_2+q_3)\),则收益函数为

\[u_1=q_1[100-(q_1+q_2+q_3)]-4q_1\\ u_2=q_2[100-(q_1+q_2+q_3)]-4q_2\\ u_3=q_3[100-(q_1+q_2+q_3)]-4q_3 \]

反应函数为:

\[q_1 = R_1(q_2,q_3) = 48-\frac{1}{2}q_2 -\frac{1}{2}q_3\\ q_2 = R_2(q_1,q_3) = 48-\frac{1}{2}q_1 -\frac{1}{2}q_3\\ q_3 = R_3(q_1,q_2) = 48-\frac{1}{2}q_1 -\frac{1}{2}q_2 \]

基于对称性,得到

\[q_1^*=q_2^*=q_3^*=24;\quad u_1^*=u_2^*=u_3^*=576. \]

如果是三方合作:

\[q_1^{*}=q_2^{*}=q_3^{*}=16;\quad q_1^{*}=u_2^{*}=u_3^{*}=768. \]

​结论:① 农户竞争博弈——>过度放牧——>浪费资源——>未获得最好效益;② 若农户数进一步增加,纳什均衡策略的效率更低;③ 合作——>各农户养羊数量少——>个体和总体利益都更大。 公地悲剧的原因,在于人性的自私与不足,所以在建设公用资源时应考虑到这种情况。如政府通过设定禁渔期,以此使得渔民们长期有鱼可捕捞;碳排放权的出现使得高污染企业不能继续向以往一样将个人利益建立在对公众资源的剥夺上,让人们享有本应拥有的更好的空气质量;村里的公用娱乐设备受居民们集体监督,就能很大程度防止个人对娱乐设施的故意破坏;在进行慈善活动时,给出的钱需要附上条件,防止这些钱被浪费,比如捐助学校时,对资金的流向进行指定用途并且紧缩(当然后续可以追加、只是要让使用钱的人钱是紧张的);公司的卫生环境如果外包,那么员工通常就不会主动爱护环境,所以可以将卫生工作适当分配给员工,在福利方面,如果公司提供地过于充分,就容易造成浪费,此时有限补贴效果更能防止浪费,比如公司只报销部分比例。

五、策略式博弈机制

随博弈收益矩阵中参数\(a\)至\(g\)关系的不同,代表了不同类型的博弈模型,以下对这些模型进行举例和归纳。

5.1 囚犯困境

当\(a>e、c>g、b>d、f>h\)且\(ag、b>d、f>h\)时该博弈为智猪博弈。以下为生活中的一种智猪博弈的实例。

假设有甲乙两个同学,两人认真学习所用的时间对排名收益都是-10,只要有一个人认真学习,则会提高学习氛围,使两个人都获得排名收益,但两个同学学习水平不同,甲从较好学习氛围中获得的排名收益为+20,而乙从中获得的排名收益为+5,且两人都希望获得较高排名。 对于乙同学,假设甲同学认真学习,5>-5,即不认真学习收益更高;假设甲同学不认真学习,乙同样不认真学习收益更高。综上,乙同学会选择不认真学习。而对于甲同学,在已知乙同学不认真学习的条件下,其认真学习的收益更高,故甲同学会选择认真学习。综合,博弈的均衡结局是(甲同学认真,乙同学不认真)。

5.3 斗鸡博弈

当\(ac、h>b>d\)且\(c=e、d=f\)时该博弈为性别战。以下为生活中的一种性别战的实例。

假设在一支篮球队里有甲乙两位队员,甲队员擅长控场,而乙队员擅长快攻。每次持有球权后,双方必须在场上进行博弈,如果两人都选择控场,则乙可能不习惯,但最终能帮助队伍得分;同理,如果都选择快攻,则甲可能打得不爽。但如果两人意见不一致,则选择快攻的队员已经大步流星向前的时候,选择控场的队员还在慢悠悠地往前走,这就导致队伍的收益为0。 综上所述,该博弈的均衡是(甲控场,乙控场)或(甲快攻,乙快攻)。因此,这就说明了在比赛过程中队长或者主教练的重要性,一定要有一个足够拥有话语权的权威将各个队员的战术统一起来才能使得最终球队获益。

5.5 猎鹿博弈

当\(a>g、a>e、b>h、b>d\)且\(g>c、h>f\)时该博弈为猎鹿博弈。以下为生活中的一种猎鹿博弈的实例。 如今的许多婚姻家庭仍然存在着女方家属向男方家属索要彩礼的现象。假设存在这样的一对夫妻,如果男方主动给彩礼且女方主动要彩礼,则双方皆大欢喜,并且证明了经济实力,均得到+10的评价收益。而如果男方不主动给,女方也不主动索要,则双方依然均获益,但此时没有证明经济实力,故只有+5的评价收益。而如果一方给另一方不需要或者一方索要另一方不给,主动的一方往往会降低对对方的评价,同时又刻意抬高了自己的实力。

对男方来说,如果女方要彩礼,则其最佳策略是给彩礼,否则会降低对方对自己的评价;如果女方不要彩礼,其最佳策略是不给彩礼,否则会让对方认为自己霸道。对女方而言,最佳策略同样如此。 结合上述分析,其均衡是(男方给彩礼,女方要彩礼)和(男方不给彩礼,女方不要彩礼)。换句话说,在婚姻中,不论是否索要彩礼或者是否给予彩礼,都最好先和对方说清楚,让对方明知自己会怎么样,使这件事成为双方的共同知识,这样才能使得双方的博弈结果是婚后利益最大化,否则会导致婚后男方或女方单方面地感到压力。

六、混合策略纳什均衡

以猜硬币博弈为例,每以参与人持一枚硬币,选择出正面或背面向上。若两枚硬币一致(即全部正面向上或背面向上),则参与人2赢走参与人1的硬币;如果两枚硬币不一致(一正一反),则参与人1赢走硬币,博弈的收益矩阵如下图。可以发现在此博弈中不存在前一小节中定义的纯策略纳什均衡,因为无论哪一个状态都有参与者有意愿偏离。

在博弈中,一旦每个参与者都竭尽全力试图猜测其他参与者的策略,就不存在纯策略纳什均衡,因为此时参与者的最优行为是不确定的,而博弈的结果必然要包含这种不确定性。因此,在这里引出混合策略(mixed strategy)。将参与人的每一可能信息集映射到一个关于行动的概率分布上。即参与人在同一种给定的情况下有可能选择集中不同行动中的任何一种。对于参与人\(i\)来讲,参与者\(-i\)的混合策略代表了他对\(-i\)选择策略的不确定性,参与者\(i\)由此计算出他对参与者\(-i\) 的最优反应。

仍以猜硬币博弈为例,参与者1以概率\(p\)出正面,以概率\((1-p)\)背面;参与者2以概率\(p\)出正面,以概率¥(1-p)¥背面。参与者1出正面可得期望收益为

\[q(-1) + (1-q)*1 = 1-2q \]

,出背面的期望收益为

\[q*1+(1-q)(-1) = 2q-1 \]

。参与者2为了使其策略具有不确定性(即参与者1猜不到他的策略),得让参与者1出正面和出背面的期望收益相等,此时解得

\[q=1/2 \]

。如果\(q\geq 1/2\)参与者1的最优反应是选择正面(参与者1将会一直选择正面),如果\(q\leq 1/2\)参与者的最优反应是选择背面(参与者2将会一直选择背面),这两种情况都使得参与者2的策略失去了不确定性。因此,参与者2的混合策略为(1/2,1/2)。同理,可以计算得到参与者1的混合策略为(1/2,1/2)。

参与人策略可以用上图表示出,其中的交点为参与者双方的混合战略的纳什均衡。

参考文献 完全信息静态博弈--静态博弈与占优策略均衡 博弈论(Game Theory)入门——完全信息静态博弈 博弈论——完全信息静态博弈4 博弈模型汇总和整理


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3