Game-Theory-博弈论(2)
烧桥策略 (Burning Bridges Strategy)
烧桥策略 (Burning Bridges Strategy) 是博弈论中的一种策略选择,旨在通过放弃或摧毁某些未来的选择或回头路,来增强当前决策的可信度和坚定性。这个策略的名称源自于军事术语,指的是军队在跨越桥梁后将其摧毁,以防止敌人追击,同时也阻止自己撤退。
釜底抽薪
我们来看一个例子:
理性的🐖
两只猪,一只是大猪,另一只是小猪,被放入一个箱子中。
箱子的一端有一个杠杆,当按下时,会在另一端分配食物。
按下杠杆的猪必须跑到另一端;到达那里时,另一只猪已经吃了大部分(但不是全部)的食物。
主导猪能够防止从属猪在两只猪都在食物前时获取任何食物。
它们的生存依赖于获取尽可能多的食物。
哪只猪会按杠杆?
我们可以来设定一下这个game的payoff矩阵:
小猪 | 拉杆 | 等待 |
---|---|---|
大猪 | ||
拉杆 | 4,-1 | 3,2 |
等待 | 5,-1 | 0,0 |
- 5表示全吃
- -1表示饿死了
- 当小猪等待大猪拉杆的时候,小猪能够先吃2份,随后大猪赶到,赶走小猪,吃掉剩下三份
在这种情况下,我们会发现,当大猪拉杆时,小猪应该选择等待;当大猪等待时,小猪还是应该等待;只要小猪拉杆,它就得死!
所以,“小猪等待”成为了它破釜沉舟的办法(占优策略)。
- 因此,烧桥策略是一种特殊的占优策略。
混合策略 (Mixed Strategy)
混合策略 (Mixed Strategy) 是博弈论中的一个重要概念,用于描述玩家在多个策略之间进行概率混合的决策方式。与纯策略 (Pure Strategy) 不同,纯策略是玩家选择一个确定的策略,而混合策略则是玩家根据一定的概率分布在多个策略之间进行选择。
我们来看一个和概率相关的game.
匹配硬币(matching coins)
两个玩家A和B,每个人各自手上有一枚硬币,他们同时选择硬币的正反面并同时展示出来。
如果两枚硬币的面相同,则A获胜,A获得一美元,B失去一美元
如果两枚硬币的面不同,则B获胜,B获得一美元,A失去一美元
我们来看一下这个game的payoff矩阵:
B | 正面 | 反面 |
---|---|---|
A | ||
正面 | 1,-1 | -1,1 |
反面 | -1,1 | 1,-1 |
我们会发现,这个game里面没有纯纳什均衡,因为无论一个玩家做什么决策,另一个玩家都能通过改变其决策来制胜。
- 但是,这里面可以存在混合纳什均衡
首先,我们来考虑A的最佳响应策略。
-
A假设B会选择正面,且概率为q
-
则B会选择反面的概率为1-q
-
因此我们可以得到两个A的期望效用:
-
因此我们能知道:
同样,对于玩家B也是如此
混合纳什均衡的定义则是,两者处于策略概率相同的状态。
所以本案例的混合纳什均衡为(0.5,0.5)和(0.5,0.5)
- 注意我没有写错,两个(0.5,0.5)是不一样的,是分别对于玩家A和B来说,各有一个本game的纳什均衡,只不过恰好数值一样。
纳什均衡的一些性质
- 一场博弈中必然存在至少一个纳什均衡(可以是混合纳什均衡)
- 一般情况下,纳什均衡的数量是奇数
- 如果一个博弈有2k+1个纳什均衡,则至少有K个是混合纳什均衡。
连续策略集合(continuous strategy sets)
连续策略集合(continuous strategy sets)是指玩家可以在一个连续区间内选择策略,而不是仅限于几个离散的选择。
产量竞争(Cournot 竞争)
一个典型的例子是量产竞争,也被成为Cournot竞争。
有两个糕点房九月生活和元祖,生产同一种蛋糕。它们生产蛋糕的产量为0到无穷大。
它们将生产的蛋糕送到同一个超市贩卖。
我们令九月生活的产量为q_九,令元祖的产量为q_元
令市场对蛋糕的定价为P=a-b(q_九+q_元).
在这里我们为了具体讨论,我们令a=240,b=1,且生产一个蛋糕的成本为C=60元
根据以上条件,我们可以算出两个糕点房的收益函数:
可以看得出,这是一个抛物线,我们求该抛物线的导数为0的地方算其极值
同理
因为纳什均衡是两方互为最佳响应策略的时刻,所以我们可以直接联立两个方程,表示他们同时互为最佳响应策略。
得到:
对于一般的Cournot竞争来说,以下为一般情况
示例分析:Cournot 竞争
假设两家公司 ( A ) 和 ( B ) 在市场上竞争,它们分别选择产量 ( q_A ) 和 ( q_B )。市场价格 ( P ) 是产量的递减函数,例如 ( P(Q) = a - bQ ),其中 ( Q = q_A + q_B )。
- 公司 ( A ) 的收益函数 ( u_A = q_A (a - b(q_A + q_B)) - c q_A )
- 公司 ( B ) 的收益函数 ( u_B = q_B (a - b(q_A + q_B)) - c q_B )
其中 ( c ) 是单位生产成本。
1. 求解公司 ( A ) 的最佳回应函数:
2. 求解公司 ( B ) 的最佳回应函数:
3. 求解纳什均衡:
通过联立上述两个方程,可以求解 ( q_A ) 和 ( q_B ):
因此,纳什均衡是 ( q_A = q_B = \frac{a - c}{3b} )。
零和博弈(Zero-Sum Game)
零和博弈(Zero-Sum Game)是博弈论中的一种特殊类型的博弈。在零和博弈中,参与者的利益总和为零,即一个玩家的收益完全等于另一个玩家的损失。换句话说,一个玩家的得益总是以另一个玩家的损失为代价,因此博弈中的收益和损失相互抵消。
剪刀石头布
在剪刀石头布游戏中,两名玩家同时选择剪刀、石头或布。如果两人选择相同,则平局,双方都没有收益。如果选择不同,则一方获胜,另一方失败:
玩家A\玩家B | 剪刀 | 石头 | 布 |
---|---|---|---|
剪刀 | 0, 0 | -1, 1 | 1, -1 |
石头 | 1, -1 | 0, 0 | -1, 1 |
布 | -1, 1 | 1, -1 | 0, 0 |
Min-max策略和max-min策略
Min-Max策略
定义
Min-max策略是指在对手采取最优策略的前提下,选择使自己损失最小的策略。
应用
在决策过程中,玩家会考虑对手的所有可能策略,并假设对手会采取使自己收益最大化的策略。
然后,玩家选择在对手采取最优策略的情况下,使自己损失最小的行动。
例子
在国际象棋中,玩家会考虑对手的所有可能走法,并选择对自己最不利的走法作为对手的策略。然后,玩家选择一个能最小化最大损失的走法。
Max-Min策略
定义
Max-min策略是指选择使自己收益最小化的策略,从而在这种情况下使自己的收益最大化。
应用
在决策过程中,玩家会考虑所有可能的情况,并选择使自己收益最小的策略。
然后,玩家选择在这种情况下使自己收益最大的行动。
例子
在拍卖中,一个投标人可能会选择一个最坏情况下收益最小的出价,然后在这些出价中选择一个使自己收益最大的出价。