Game-Theory-博弈论(1)
标准型博弈 (normal form game)
标准型博弈 (Normal Form Game) 是博弈论中一种用于描述玩家之间战略互动的表示方法。在标准型博弈中,博弈的所有元素(玩家、策略和支付)都以一种表格或矩阵形式呈现出来。标准型博弈通常用于分析静态博弈,即所有玩家同时做出决策的博弈。
例子
我们给出一个例子来简单说明标准型博弈。
现在有两个便利店,一个是711,一个是全家。
现在有两个车站,车站A和车站B
车站A的客流量有1200,车站B的客流量有300
便利店在车站开店可以占据客流量
但如果两家便利店在同一个车站开店,那么客流量的分配是全家:711=2:1
因此,我们可以做一个payoffs表格出来(第一项为711,第二项为全家):
全家的选择 | 全家的选择 | |
---|---|---|
711的选择 | 车站A | 车站B |
车站A | 400,800 | 1200,300 |
车站B | 300,1200 | 100,200 |
占优策略(Dominant Strategy)
占优策略 (Dominant Strategy) 是博弈论中的一个重要概念,用于描述在不论其他玩家选择何种策略的情况下,某个玩家总是会选择的最佳策略。也就是说,占优策略在任何情况下都能带来比其他策略更高或至少不低的收益。
全家的选择 | 全家的选择 | |
---|---|---|
711的选择 | 车站A | 车站B |
车站A | 400,800 | 1200,300 |
车站B | 300,1200 | 100,200 |
还是那上面那个例子来说,我们会发现:
当全家选择A站,711会选择A站让自己收益变高(400>300)
当全家选择B站,711还是会选择A站,因为1200>100
- 因此对于711来说,A站是它的最优选择
同理
当711选择A站,全家会选择A站让自己收益变高(800>300)
当711选择B站,全家还是会选择A站,因为1200>200
- 因此对于全家来说,A站是它的最优选择
- 所以我们发现,A站对于两者来说,都是占优策略
- 所以最后,两家便利店都会选择A站(这其实就是一种纳什均衡)
占优策略均衡 (Dominant Strategy Equilibrium)
占优策略均衡 (Dominant Strategy Equilibrium) 是一种特殊的纳什均衡,其中每个玩家都选择其占优策略。也就是说,在这个均衡中,每个玩家的策略在任何情况下都比其他策略带来更高或至少不低的收益。
- 首先,一个均衡就是一场博弈的一个解决方案(solution)
如果在一个博弈中,每个玩家都有一个占优策略,并且所有玩家都选择了他们的占优策略,那么这个策略组合就是占优策略均衡。
囚徒困境(Prisoner’s dilemma)
囚徒困境的payoffs矩阵:
B:confess | B:silence | |
---|---|---|
A:confess | -5,-5 | 0,-10 |
A:silence | -10,0 | -1,-1 |
玩家 A 的策略分析:
- 如果玩家 B 选择招供,玩家 A 招供的收益是 -5,保持沉默的收益是 -10。因此,玩家 A 会选择招供。
- 如果玩家 B 选择保持沉默,玩家 A 招供的收益是 0,保持沉默的收益是 -1。因此,玩家 A 还是会选择招供。
- 结论:不论玩家 B 选择什么,玩家 A 的最佳策略是招供 (Confess)。
玩家 B 的策略分析:
- 如果玩家 A 选择招供,玩家 B 招供的收益是 -5,保持沉默的收益是 0。因此,玩家 B 会选择招供。
- 如果玩家 A 选择保持沉默,玩家 B 招供的收益是 -10,保持沉默的收益是 -1。因此,玩家 B 还是会选择招供。
- 结论:不论玩家 A 选择什么,玩家 B 的最佳策略是招供 (Confess)。
在这个例子中,玩家 A 和玩家 B 的占优策略都是招供 (Confess)。因此,占优策略均衡是:
- 但是要注意,占优策略在一场博弈中,不一定每次都存在
最佳回应策略 (Best Response Strategy)
最佳回应策略 (Best Response Strategy) 是博弈论中的一个概念,用于描述在给定其他玩家策略的情况下,某个玩家选择的能够使其收益最大化的策略。也就是说,最佳回应策略是每个玩家在考虑其他玩家选择的策略后做出的最优选择。
例如,如果在一场博弈中,玩家A有最优策略,而玩家B没有最优策略,此时B可以揣测A就会选择最优策略,在这种情况下,玩家B可以使用最佳回应策略,看看选什么收益更高了。
纳什均衡(Nash Equilibrium)
纳什均衡 (Nash Equilibrium) 是博弈论中一个核心概念,用于描述在一个博弈中,每个玩家都选择了自己的最佳策略,且任何一个玩家都无法通过单方面改变自己的策略来提高其收益。 换句话说,在纳什均衡中,每个玩家的策略都是对其他玩家策略的最佳回应。
我们来考虑一个两个玩家都没有占优策略的博弈。我们修改一下之前例子中的条件和数值:
现在有两个便利店,一个是711,一个是全家。
现在有两个车站,车站A和车站B
车站A的客流量有600,车站B的客流量有750
便利店在车站开店可以占据客流量
但如果两家便利店在同一个车站开店,那么客流量的分配是全家:711=2:1
全家的选择 | 车站A | 车站B |
---|---|---|
711的选择 | ||
车站A | 200,400 | 600,750 |
车站B | 750,600 | 250,500 |
会发现,这里面,两家便利店都没有占优策略!
这时候该怎么办?!只能靠猜!
全家会猜711选什么,711会猜全家选什么,于是,他们最终会走向纳什均衡。
正如石头剪刀布,就是一个纳什均衡。
那怎么找出纳什均衡的状态呢?我们可以使用下划线法。步骤是这样的:
先固定除了一个玩家以外的其他玩家的选择,然后看该玩家会怎么选择。然后反过来,看看是不是同样成立。
例如,当711选择车站A的时候,全家会选择B;我们可以在750上划线(由于markdown语法原因,我们用加粗表示):
全家的选择 | 车站A | 车站B |
---|---|---|
711的选择 | ||
车站A | 200,400 | 600,750 |
车站B | 750,600 | 250,500 |
当全家选择B的时候,711会选择车站A。
我们可以在600上划线:
全家的选择 | 车站A | 车站B |
---|---|---|
711的选择 | ||
车站A | 200,400 | 600,750 |
车站B | 750,600 | 250,500 |
所以,(600,750)就是一个纳什均衡. |
- 要注意,纳什均衡可能不止一个
我们能够发现在这个博弈中,(750,600)也是一个纳什均衡。所以:
全家的选择 | 车站A | 车站B |
---|---|---|
711的选择 | ||
车站A | 200,400 | 600,750 |
车站B | 750,600 | 250,500 |
三人玩家情况又怎么办呢?
- 多人玩家的情况同样适用,不过我们在使用下划线法的时候,要把三维矩阵展开成若干个二维矩阵了。
纯策略纳什均衡 (Pure-Strategy Nash Equilibrium)
纯策略纳什均衡 (Pure-Strategy Nash Equilibrium) 是一种特定类型的纳什均衡。在纯策略纳什均衡中,每个玩家都选择一个确定的策略,而不是在多个策略之间进行概率混合。相比之下,一般的纳什均衡可能包括纯策略纳什均衡和混合策略纳什均衡 (Mixed-Strategy Nash Equilibrium)。
具体的我们可以到学习了混合策略纳什均衡 (Mixed-Strategy Nash Equilibrium)之后再讲。