Python实现2人斯塔克尔伯格(Stackelberg)非完美信息定价博弈

您所在的位置:网站首页 斯坦伯格博弈均衡 Python实现2人斯塔克尔伯格(Stackelberg)非完美信息定价博弈

Python实现2人斯塔克尔伯格(Stackelberg)非完美信息定价博弈

2024-06-24 07:43| 来源: 网络整理| 查看: 265

1.前言

斯塔克尔伯格(Stackelberg)定价博弈是一种经济学中的博弈模型,常用于描述市场中的价格竞争。在斯塔克尔伯格定价博弈中,假设有两个参与者,一个是领先者(leader),另一个是追随者(follower)。领先者首先决定价格,而追随者在得知领先者的价格后再做出自己的定价。这种顺序决策的特点使得领先者可以考虑追随者的反应,并相应地制定策略。 在斯塔克尔伯格定价博弈中,领先者通常会优先考虑自身利益最大化,而追随者则会根据领先者的定价做出反应。领先者的目标是通过定价策略来最大化自己的利润,而追随者的目标是尽可能减少自己的损失。当博弈为非完美信息博弈时,参与者并不拥有完全的信息,即参与者在博弈中可能只能观察到有限的信息或仅能推测对手的策略和信息。因此博弈中,每个参与者会根据自己所观察到的信息做出决策。这些信息可以是对手的先前行动、信号、观察结果等。参与者需要基于有限的信息,通过推断和预测对手的策略来制定自己的最优策略。 常见的 Follower 策略包括:

反应函数策略(Reaction Function Strategy):Follower 基于 Leader 的定价策略制定自己的反应函数,反映了对 Leader 定价的最佳响应。Follower 根据 Leader 的定价水平来确定自己的最优定价或市场行为。跟随策略(Follow-the-Leader Strategy):Follower 在市场中采取与 Leader 相同的定价策略,即跟随 Leader 的定价水平。这种策略假设 Follower 认为 Leader 的定价是最优的,并试图通过跟随 Leader 来获得最大化的利润。入侵策略(Incumbent Strategy):Follower 选择进入市场并与 Leader 进行价格竞争。Follower 通过以低于 Leader 的价格销售产品或提供更多的附加服务来吸引消费者,从而争夺市场份额。不合作策略(Non-cooperative Strategy):Follower 采取独立的定价策略,不考虑 Leader 的定价策略。Follower 可能通过制定自己的价格战略来最大化自身的利润,而不受 Leader 的影响。 2.博弈规则

设Leader的定价策略为 u L u_L uL​,Follower的定价策略为 u F u_F uF​,且有: (1)Leader策略空间为 U L = [ 1.00 , + ∞ ) U_L=[1.00,+\infty) UL​=[1.00,+∞); (2)市场需求(价格-销售量)与双方定价的关系模型为 S L ( u L , u F ) = 2 − u L + 0.3 u F S_L(u_L,u_F)=2-u_L+0.3u_F SL​(uL​,uF​)=2−uL​+0.3uF​; (3)Leader每日利润与双方定价的关系为 P L = ( u L − c L ) S L ( u L , u F ) P_L=(u_L-c_L)S_L(u_L,u_F) PL​=(uL​−cL​)SL​(uL​,uF​),其中单位成本 c L = 1 c_L=1 cL​=1; (4)Leader完全不了解Follower的策略空间、定价策略和每日利润,即博弈对于Leader来说是非完美信息,但是Leader可以获取过去100天内Follower的定价数据,因此可以对Follower策略进行预测。Leader的博弈目标为最大化接下来30天内的累积利润。 (5)设整个周期内(130天内)Leader的单位成本,策略空间和市场需求模型不变。

博弈流程为:在第 t t t天,Leader首先给出定价 u L ( t ) u_L(t) uL​(t)。在知晓Leader定价后,Follower随后给出自己的定价 u F ( t ) u_F(t) uF​(t),其中 t = 1 , 2 , . . , 130 t=1,2,..,130 t=1,2,..,130。Leader可以获取 0 ≤ t ≤ 100 0\leq t\leq 100 0≤t≤100天内的 u F ( t ) u_F(t) uF​(t)数据来帮助自己最大化 101 ≤ t ≤ 130 101\leq t \leq 130 101≤t≤130内的累积利润,即最大化 ∑ P L \sum P_L ∑PL​。Follower的策略 u F ( t ) u_F(t) uF​(t)和每日利润能随时间变化。

3.Leader最优策略求解

根据最优性原理,最大化101-130这30天内Leader的累积利润等于最大化其中每天的利润,即求解以下最优化问题 a r g m a x u L ∈ U L J L [ u L , u F ] (1) argmax_{u_L\in U_L}J_L[u_L,u_F]\tag{1} argmaxuL​∈UL​​JL​[uL​,uF​](1) 其中 J L = ( u L − c L ) S L ( u L , u F ) = ( u L − c L ) ( 2 − u L + 0.3 u F ) \begin{align*} J_L&=(u_L-c_L)S_L(u_L,u_F)\\ \tag{2} &=(u_L-c_L)(2-u_L+0.3u_F) \end{align*} JL​​=(uL​−cL​)SL​(uL​,uF​)=(uL​−cL​)(2−uL​+0.3uF​)​(2)​ 实际上就是求 J L J_L JL​关于 u L u_L uL​的最大值。根据函数最大值的求法,即求 u L u_L uL​使 d J L d u L = 0 d 2 J L d u L 2 < 0 \begin{align*} \frac{dJ_L}{du_L}&=0 \tag{3}\\ \frac{d^2J_L}{du^2_L}&



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3