博弈论

2024-07-10 12:14| 来源: 网络整理| 查看: 265

前面讨论的博弈都属于“一次性”：每个人做出一个决策后就结束了。但现实中，人们可能会重复参与同一个博弈。两个囚徒有可能在局子里再次相会，老师和学生会在若干年的时间里为考试而反复博弈，寡头厂商之间每天都在勾心斗角……，就产生了重复博弈的理论研究。重复博弈理论的最大贡献是对人们之间的合作行为提供了理性解释，如在囚徒困境中，一次博弈的唯一均衡是不合作（即坦白），但如果博弈无限重复，合作就可能出现。重复博弈有效是因为背叛会受到惩罚，最直接的惩罚是下次我也会背叛你，而你得不到合作的好处。

一、重复博弈概述

在重复博弈中，参与者不仅需要考虑当前的决策，还需要考虑他们的决策如何影响未来博弈的结果。在重复博弈中，参与者需要考虑长期利益，建立信任，并选择最佳策略以实现最有利的结果。重复博弈可以用于多种不同的背景和情境，包括商业、政治和生活中的各种决策情况。在单阶段博弈中，参与人的选择无法建立在对手前阶段行动的基础上，因此参与人会毫不顾忌其他博弈方的利益。而在重复博弈中，过去的行动可以被观察到，参与人的选择可以建立在其他博弈方过去行动的基础上，要考虑到不能引起其他博弈方在后面阶段的对抗、报复或恶性竞争。如过去你欺骗我，这次我不与你合作，过去合作愉快，这次还选择合作。由于过去行动的多样性，每个参与人的策略空间得到扩大，使得合作成为可能。有时，由于一方做出了一种合作的姿态，可能使其他博弈方在今后阶段采取合作的态度，从而实现共同的长期利益。如在一次囚徒困境问题中，合作明明对所有参与人都有利，但是个体理性决定了不合作的结果。而在重复囚徒困境问题中，参与人会认识到合作对自己最有利，从而所有的参与人会选择合作，因此重复博弈可使理性人走出囚徒困境。在重复博弈中，可信性和子博弈完美性是两个非常重要的概念，可信性指动态博弈中先行动的博弈方是否相信后行动的博弈方会采取对自己有利或不利的行为。如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡，则称该策略组合具有子博弈完美性。子博弈完美性是判断均衡是否稳定可靠的重要依据。由于长期利益对短期行为的制约作用，因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信，从而使博弈的均衡结果出现更多的可能性。重复博弈可分为有限期重复博弈和无限期重复博弈。如果参与人明显察觉到有一个确定的最后时期，并明确该最后时期信息进入了参与人的策略考虑范围，则称重复博弈为有限期重复博弈，否则称重复博弈为无限期重复博弈。

二、有限重复博弈——囚徒困境

回到囚徒困境的支付矩阵之中：

囚徒困境的结论是：双方都选择坦白。对于囚犯来说，显然是合谋不坦白更有利，但他们没有这么做。如果将他们抓了又放，放了再抓，如此重复\(T\)次（且囚徒知道重复\(T\)次这一点），结果会如何？我们仍然可以使用逆向归纳法得出结论。在第\(T\)期（最后一期），无论之前发生了什么，双方的策略一定都是坦白。这是因为两个囚徒已经失去了合作的可能性和必要性，双方做的是“最后一锤子买卖”，当然不会不坦白。返回第\(T-1\)期。双方面临着同样的问题：无论第\(T-1\)期做何种决策，第\(T\)期的结果都是确定的。固然其中一个参与人可以承诺在第\(T\)期选择不坦白（也称合作策略），以鼓励另一位参与者在\(T-1\)期与他一起选择不坦白。但这个承诺是不稳定的、不可信的。因为第\(T\)期无论如何都是选择坦白（也称背叛策略）更有利。既然如此，就可以把\(T-1\)期的博弈视为最后一期博弈，结果是同样的：第\(T-1\)期双方都选择坦白。依照这个方法上溯，每一期博弈的结果都将是不合作——双方都选择坦白。这个结论具有一般性。我们给出如下定理：令 \(G(T)\) 表示把单次博弈\(G\)重复\(T\)次的重复博弈， \(T SQ >WAR，这意味着当挑战者发起挑战时,其结局或者优于 SQ 或者劣于 SQ，因此风险与收益并存；威胁者的偏好为 CWIN < SQ且 WAR < SQ，即维持现状是威胁者最好的结局，这也是威慑者慑阻挑战者发起挑战的根本动因，否则威胁者将挑战现状，转化为挑战者。在博弈双方的多种互动格局中，威胁威慑格局的形成是有条件的 ,只有在上述挑战者与威胁者的偏好序同时成立的条件下，才能形成与威胁定义相一致的威胁格局：挑战者有动因发起挑战，但要冒与威胁者产生冲突的风险，威胁者力图慑阻挑战者的挑战，因为维持现状是威胁者最好的结局。

为了使自己的策略行动显得可信，就要建立自己的可信度。这里我们提出九种建立自己可信度的方法：　　一是承诺，就是在策略行动时候，必须同时采取一个附加或从属的行动。例如，我一定会完成这个任务的，附加的行动就是如果不完成自愿扣除奖金，这样更有说服力。　　二是信誉，所以要尽可能的避免反悔，反悔会丧失自己可信度方面的信誉。说到做到，能够逐渐的增加自己的信誉值。　　三是合同，为了使你的承诺显得可信，一个最直接的方法就是同意自己在不能遵守承诺时候接受某种惩罚，并将其书面化。当然单有合同并不能解决可信度问题。签订有法律效益的合同，能够让双方都更加放心。　　四是切断沟通，切断沟通在于它可以使一个行动变得不可逆转，例如遗嘱，一旦一方死亡，再没有谈判的机会了。　　五是破釜沉舟，军队通常借助断绝自己的后路的做法而达到遵守承诺的目标，这个也适用于日常生活中做决策时使用，切断自己的一切后路，才能全力以赴。并不是所有的行动都适合有B计划，切断自己的所有的后路，才能全力以赴。六是让后果超出你的控制，要想减小过错的后果，就找到一个刚好能够威胁对方又不会太过火，将权力交给对方。例如，如果你真的犯错我就将你移交法律机关，这样谁都不能包庇。　　七是小步前进，完全信任对方意味着要承担很大的风险，在这种情况下，大家都不愿意信任对方，可以将内容分成一小个一小个部分，开始进行，即使出错也可以尽量减少损失。例如，将一项重要的任务，分给多个人完成，不把鸡蛋放在一个篮子里，减少风险。　　八是团队合作，其他人可以帮助我们建立可信的承诺，假设有多个人愿意为你担保，则证明你的可信度很高。就是需要提高自己在团队中的信誉。　　九是受托谈判代理人，将双方的行动由第三方实施，并且切断和代理人联系，可以提高自己的可信度。例如，找第三方公证，常见的有遗嘱公证，婚前公证等等。

无限次重复古诺模型两寡头进行古诺产量博弈，如果市场需求\(P=150 -Q\)，边际成本\(c=30\)，且没有固定成本，贴现因子为0.9。如果市场竞争形势长期稳定，问两个厂商能否维持垄断产量? 解****：(1)古诺竞争时的纳什均衡: 设厂商1的产量为\(q_1\)，厂商2的产量为\(q_2\)，则得益函数为:

\[\begin{cases} u_1 = ( 150 − q_1 − q_2 ) q_1 − 30 q_1 = 120 q_1 − q_1 q_2 − q _1^2 \\ u_2 = ( 150 − q_1 − q_2 ) q_2 − 30 q_2 = 120 q_2 − q_1 q_2 − q _2^2 \end{cases} \]

由一阶条件得反应函数为: 联立反应函数解得纳什均衡为:\(q_1=q_2=40\),\(u_1=u_2=1600\) (2)垄断时的最优解: 垄断总收益函数为:

\[U =(150-Q)Q-30QU=(150−Q)Q−30Q \]

由一阶条件得最优垄断总产量为:\(Q=60\)，两个厂商的产量为\(q_1=q_2=30\)，垄断总利润为\(U=3600\)，各个厂商的利润为\(u_1=u_2=1800\) 有了上面这些数据，就可以拟定出一个扳机战略：扳机战略:在第一阶段生产垄断产量的一半30（合作产略是60，所以每个企业单独的产量就是30）;在第\(t\)阶段，如果前\(t-1\)阶段的结果都是(30，30)，则继续生产30，否则生产古诺产量\(q_c = 40\) (3)设贴现因子为\(i\) ①若厂商都维持垄断产量，则长期收益为

\[\Pi_1=1800+1800 \mathrm{i}+1800 i^2+\cdots=\frac{1800}{1-i} +⋯= \frac{1800}{1-i} \]

②若厂商在第一阶段背叛，则其背叛后的收益计算如下: 在对方生成垄断产量30的前提下，自己的得益函数为:

\[\pi=(150-q-30) q-30 q=90 q-q^2 \]

解得最有产量\(q=45\)，最优利润为\(u=2025\) 由此得背叛参与人长期收益为:

\[\Pi_2=2025+1600 \mathrm{i}+1600 i^2+\cdots=2025+\frac{1600 i}{1-i} \]

③若两个厂商维持垄断产量，则满足的条件为:\(\Pi_{1}>\Pi_2\)，即:

\[\frac{1800}{1-i}>2025+\frac{1600 i}{1-i} \]

得\(i>0.529\)。由于现在贴现因子为0.9，远大于0.529。所以如果市场有长期稳定性，两个厂商能维持垄断产量。

五、总结

在重复博弈囚徒困境中，这一情境会进行多轮，并且双方的选择会受到之前选择的影响。合作和背叛之间的选择会随时间演变，因为双方会根据彼此的历史行为来做出决策。这一问题的重要性在于它可以用来探讨合作和背叛的策略，以及如何在多次互动中最大化自己的利益。研究者使用不同的博弈策略和数学模型来研究重复博弈囚徒困境，并寻找最优的策略。一种著名的策略是"针锋相对策略"（tit-for-tat），即在首轮选择合作，然后根据对方的前一轮选择来做出相同的选择。这种策略通常在实验中表现良好，因为它鼓励双方在多轮博弈中保持合作，从而获得更大的总体利益。

参考文献第五章博弈论（4）：重复博弈、承诺与可信度策略的可信性

【本文地址】

博弈论

博弈论

今日新闻

推荐新闻