烧桥策略 (Burning Bridges Strategy)

烧桥策略 (Burning Bridges Strategy) 是博弈论中的一种策略选择,旨在通过放弃或摧毁某些未来的选择或回头路,来增强当前决策的可信度和坚定性。这个策略的名称源自于军事术语,指的是军队在跨越桥梁后将其摧毁,以防止敌人追击,同时也阻止自己撤退。

釜底抽薪

我们来看一个例子:

理性的🐖
两只猪,一只是大猪,另一只是小猪,被放入一个箱子中。
箱子的一端有一个杠杆,当按下时,会在另一端分配食物。
按下杠杆的猪必须跑到另一端;到达那里时,另一只猪已经吃了大部分(但不是全部)的食物。
主导猪能够防止从属猪在两只猪都在食物前时获取任何食物。
它们的生存依赖于获取尽可能多的食物。
哪只猪会按杠杆?

我们可以来设定一下这个game的payoff矩阵:

小猪 拉杆 等待
大猪
拉杆 4,-1 3,2
等待 5,-1 0,0
  • 5表示全吃
  • -1表示饿死了
  • 当小猪等待大猪拉杆的时候,小猪能够先吃2份,随后大猪赶到,赶走小猪,吃掉剩下三份

在这种情况下,我们会发现,当大猪拉杆时,小猪应该选择等待;当大猪等待时,小猪还是应该等待;只要小猪拉杆,它就得死!

所以,“小猪等待”成为了它破釜沉舟的办法(占优策略)。

  • 因此,烧桥策略是一种特殊的占优策略。

混合策略 (Mixed Strategy)

混合策略 (Mixed Strategy) 是博弈论中的一个重要概念,用于描述玩家在多个策略之间进行概率混合的决策方式。与纯策略 (Pure Strategy) 不同,纯策略是玩家选择一个确定的策略,而混合策略则是玩家根据一定的概率分布在多个策略之间进行选择。

我们来看一个和概率相关的game.

匹配硬币(matching coins)
两个玩家A和B,每个人各自手上有一枚硬币,他们同时选择硬币的正反面并同时展示出来。
如果两枚硬币的面相同,则A获胜,A获得一美元,B失去一美元
如果两枚硬币的面不同,则B获胜,B获得一美元,A失去一美元

我们来看一下这个game的payoff矩阵:

B 正面 反面
A
正面 1,-1 -1,1
反面 -1,1 1,-1

我们会发现,这个game里面没有纯纳什均衡,因为无论一个玩家做什么决策,另一个玩家都能通过改变其决策来制胜。

  • 但是,这里面可以存在混合纳什均衡

首先,我们来考虑A的最佳响应策略。

  1. A假设B会选择正面,且概率为q

  2. 则B会选择反面的概率为1-q

  3. 因此我们可以得到两个A的期望效用:

    EA(正面)=1q+(1q)(1)=2q1EA(反面)=(1)q+(1q)1=12qE_A(正面)=1*q+(1-q)*(-1)=2q-1 \\ E_A(反面)=(-1)*q+(1-q)*1=1-2q

  4. 因此我们能知道:

    ifA最佳响应=正面2q1>12qq>12 if A_{最佳响应}=正面 \\ 2q-1>1-2q \rightarrow q>\frac{1}{2}

    ifA最佳响应=反面2q1<12qq<12if A_{最佳响应}=反面 \\ 2q-1<1-2q \rightarrow q<\frac{1}{2}

    ifA最佳响应=正面=反面2q1=12qq=12if A_{最佳响应}=正面=反面 \\ 2q-1=1-2q \rightarrow q=\frac{1}{2}

同样,对于玩家B也是如此

混合纳什均衡的定义则是,两者处于策略概率相同的状态。
所以本案例的混合纳什均衡为(0.5,0.5)和(0.5,0.5)

  • 注意我没有写错,两个(0.5,0.5)是不一样的,是分别对于玩家A和B来说,各有一个本game的纳什均衡,只不过恰好数值一样。

纳什均衡的一些性质

  1. 一场博弈中必然存在至少一个纳什均衡(可以是混合纳什均衡)
  2. 一般情况下,纳什均衡的数量是奇数
  3. 如果一个博弈有2k+1个纳什均衡,则至少有K个是混合纳什均衡。

连续策略集合(continuous strategy sets)

连续策略集合(continuous strategy sets)是指玩家可以在一个连续区间内选择策略,而不是仅限于几个离散的选择。

产量竞争(Cournot 竞争)

一个典型的例子是量产竞争,也被成为Cournot竞争。

有两个糕点房九月生活和元祖,生产同一种蛋糕。它们生产蛋糕的产量为0到无穷大。
它们将生产的蛋糕送到同一个超市贩卖。
我们令九月生活的产量为q_九,令元祖的产量为q_元
令市场对蛋糕的定价为P=a-b(q_九+q_元).
在这里我们为了具体讨论,我们令a=240,b=1,且生产一个蛋糕的成本为C=60元

根据以上条件,我们可以算出两个糕点房的收益函数:

u=q(P60)=q(240qq60)=q(180qq)u_九 =q_九*(P-60) \\ =q_九*(240-q_九-q_元-60)\\ =q_九*(180-q_九-q_元)

同理u=q(180qq)同理 \\ u_元 =q_元*(180-q_九-q_元)

可以看得出,这是一个抛物线,我们求该抛物线的导数为0的地方算其极值

uq=180q2q=0q=180q2\frac{\partial u_元}{\partial q_元}=180-q_九-2*q_元=0 \\ q_元 = \frac{180-q_九}{2}

同理

uq=180q2q=0q=180q2\frac{\partial u_九}{\partial q_九}=180-q_元-2*q_九=0 \\ q_九 = \frac{180-q_元}{2}

因为纳什均衡是两方互为最佳响应策略的时刻,所以我们可以直接联立两个方程,表示他们同时互为最佳响应策略。

得到:

q=180q2=180180q22q=60同理q=60q_元 = \frac{180-q_九}{2}=\frac{180-\frac{180-q_元}{2}}{2} \\ q_元 = 60\\ 同理\\ q_九 = 60

对于一般的Cournot竞争来说,以下为一般情况

示例分析:Cournot 竞争

假设两家公司 ( A ) 和 ( B ) 在市场上竞争,它们分别选择产量 ( q_A ) 和 ( q_B )。市场价格 ( P ) 是产量的递减函数,例如 ( P(Q) = a - bQ ),其中 ( Q = q_A + q_B )。

  • 公司 ( A ) 的收益函数 ( u_A = q_A (a - b(q_A + q_B)) - c q_A )
  • 公司 ( B ) 的收益函数 ( u_B = q_B (a - b(q_A + q_B)) - c q_B )

其中 ( c ) 是单位生产成本。

1. 求解公司 ( A ) 的最佳回应函数:

uAqA=a2bqAbqBc=0\frac{\partial u_A}{\partial q_A} = a - 2bq_A - bq_B - c = 0

qA=acbqB2bq_A = \frac{a - c - bq_B}{2b}

2. 求解公司 ( B ) 的最佳回应函数:

uBqB=a2bqBbqAc=0\frac{\partial u_B}{\partial q_B} = a - 2bq_B - bq_A - c = 0

qB=acbqA2bq_B = \frac{a - c - bq_A}{2b}

3. 求解纳什均衡:

通过联立上述两个方程,可以求解 ( q_A ) 和 ( q_B ):

qA=acb(acbqA2b)2bq_A = \frac{a - c - b \left( \frac{a - c - bq_A}{2b} \right)}{2b}

qA=ac3bq_A = \frac{a - c}{3b}

qB=ac3bq_B = \frac{a - c}{3b}

因此,纳什均衡是 ( q_A = q_B = \frac{a - c}{3b} )。

零和博弈(Zero-Sum Game)

零和博弈(Zero-Sum Game)是博弈论中的一种特殊类型的博弈。在零和博弈中,参与者的利益总和为零,即一个玩家的收益完全等于另一个玩家的损失。换句话说,一个玩家的得益总是以另一个玩家的损失为代价,因此博弈中的收益和损失相互抵消。

剪刀石头布

在剪刀石头布游戏中,两名玩家同时选择剪刀、石头或布。如果两人选择相同,则平局,双方都没有收益。如果选择不同,则一方获胜,另一方失败:

玩家A\玩家B 剪刀 石头
剪刀 0, 0 -1, 1 1, -1
石头 1, -1 0, 0 -1, 1
-1, 1 1, -1 0, 0

Min-max策略和max-min策略

Min-Max策略

定义

Min-max策略是指在对手采取最优策略的前提下,选择使自己损失最小的策略。

应用

在决策过程中,玩家会考虑对手的所有可能策略,并假设对手会采取使自己收益最大化的策略。
然后,玩家选择在对手采取最优策略的情况下,使自己损失最小的行动。

例子

在国际象棋中,玩家会考虑对手的所有可能走法,并选择对自己最不利的走法作为对手的策略。然后,玩家选择一个能最小化最大损失的走法。

Max-Min策略

定义

Max-min策略是指选择使自己收益最小化的策略,从而在这种情况下使自己的收益最大化。

应用

在决策过程中,玩家会考虑所有可能的情况,并选择使自己收益最小的策略。
然后,玩家选择在这种情况下使自己收益最大的行动。

例子

在拍卖中,一个投标人可能会选择一个最坏情况下收益最小的出价,然后在这些出价中选择一个使自己收益最大的出价。