您的位置:首页 > 其它

读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈 预备知识

2018-01-02 15:34 288 查看

读书笔记: 博弈论导论 - 07 - 完整信息的动态博弈 预备知识

完整信息的动态博弈 预备知识

本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记。

动态博弈(Dynamic Games)

静态博弈是每个玩家同时(并且在不知道其他玩家选择的情况下)做出选择。

动态博弈引进了玩家做出选择的先后次序。

注意:玩家i做出了选择后,玩家j知道玩家i做出了选择,但是不一定知道玩家i做出了什么选择。

扩展形式博弈(The Extensive-Form Game)

扩展形式博弈的表达结构:

Set of player, N.

Players payoff as a function of outcomes, \(\{ v( \cdot ) \}_{i \in N}\).

Order of moves.

Actions of players when they can move.

The knowledge that players have when they can move.

Probability distributions over exogenous events.

"exogenous"是指预先确定的分布概率自然选择(不依赖于玩家的选择)

The structure of the extension-form game represented by 1-6 is common knowledge among all the players.

博弈树(game tree)

博弈树

博弈树用来表示扩展形式博弈。

一个博弈树是一个带先后关系\(x > x'\)的节点集合\(x \in X\)。

\(x > x'\)表示x在x'之前。

每个节点只有一个父。

先后关系(precedence relation)具有:

传递性(transitive): \(x > x', x' > x'' \implies x > x''\)

不对称性(asymmetric): \(x > x' \implies \ not \ x' > x\)

不完整性(incomplete): 不是每一对x, y有先后次序。

有一个根节点,标记为\(x_0\),是其它所有节点的祖先。

没有子的节点称为末端节点(terminal nodes),表示为\(Z \subset X\)。

末端节点表示为结果,并关联收益函数。

非末端节点被赋予1)一个玩家\(i(x)\),和行动集合\(A_i(x)\),或者2)自然(Nature)。

信息集合列表(the collection of information set of player i)

玩家i的信息集合(information set)列表,每个信息集合\(h_i \in H_i\)博弈树中的玩家i运行的部分节点,具有以下属性:

如果\(h_i = \{ x \}\)是一个单例集合,则运行\(x\)的玩家i知道他位于\(x\)节点上。

如果\(h_i = \{ x, x', \cdots \}\),则运行\(x\)的玩家i不知道他位于\(x\)节点上还是位于\(x'\)节点上。

如果\(h_i = \{ x, x', \cdots \}\),则\(A_i(x') = A_i(x)\)。


更多的解释,这是为完美信息的定义打铺垫。

如果玩家i的信息集列表都是\(h_i = \{ x \}\),则表明玩家i知道:1) 行动次序, 2)对方的行动是什么。

如果玩家i的信息集列表存在是\(h_i = \{ x, x', \cdots \}\),则表明玩家i知道:1) 行动次序。但是不知道: 1)对方的行动是什么。

这是导致玩家i: 1)性质2:不决定位于博弈树上的那个节点,因此,性质3:\(A_i(x') = A_i(x)\)也必然成立。



完美信息博弈

一个完整信息博弈中,每个玩家i的每个信息集都是单例集合,并且没有自然(Nature)选择,则这个博弈是完美信息博弈。

不完美信息博弈

一个完整信息博弈中,存在一些信息集不是单例集合,或者有自然(Nature)选择,则这个博弈是完美信息博弈。


可以将自然选择理解为掷骰子、抽签、盲牌。



扩展形式博弈的纯策略

玩家i的一个纯策略是一个完整计划,描述了在每一个信息集合上,玩家i会选择哪个纯行动。

扩展形式博弈的纯策略

玩家i的一个纯策略是影射: \(s_i: H_i \to A_I\),对于每个信息集\(h_i \in H_i\),有\(s_i(h_i) \in A_i(h_i)\)

\(A_i(h_i)\)表示玩家i的一个信息集对应的行动集合。

扩展形式博弈的策略数

\[
|S_i| = m_1 \times m_2 \times \cdots \times m_k \\
where \\
|S_i| \text{ : the number of elements in } S_i \\
m_j \text{ : the number of actions in the j-nd information set} \\
k \text{ : the number of information sets}
\]

混合策略(mixed strategy)

一个混合策略是一个在各个纯策略上的概率分布。

行为策略(behavioral strategy)

一个行为策略:对每一个信息集\(h_i \in H_i\),有一个在各个行动\(a_i(h_i) \in A_i(h_i)\)上的概率分布,表示为

\(\sigma_i : H_i \to \Delta A_i(h_i)\)

\(\sigma_i(a_i(h_i))\) : 玩家i,在信息集\(h_i\)上,选择行动\(a_i(h_i) \in A_i(h_i)\)的概率。

纯策略 vs 混合策略 vs 行为策略

纯策略使用一个行动作为策略结果。

混合策略在玩游戏前是一个行为的概率分布,最终还是使用了一个纯策略。

行为策略在玩游戏前和玩的时候,都是一个行为的概率分布。

完美回忆博弈(a game of perface recall)

在完美回忆博弈中,每个玩家都不会忘记之前知道的信息集。

均衡路径(the equilibrium path)

在一个扩展形式博弈中,行为策略的纳什均衡\(\sigma^* = (\sigma_1^*, \cdots, \sigma_n^*)\)。

如果一个信息集有可能到达这个纳什均衡\(\sigma^*\),则称这个信息集在均衡路径上。

如果一个信息集不可能到达这个纳什均衡\(\sigma^*\),则称这个信息集不在均衡路径上。

参照

Game Theory An Introduction (by Steven Tadelis)

读书笔记: 博弈论导论 - 01 - 单人决策问题

读书笔记: 博弈论导论 - 02 - 引入不确定性和时间

读书笔记: 博弈论导论 - 03 - 完整信息的静态博弈 预备知识

读书笔记: 博弈论导论 - 04 - 完整信息的静态博弈 理性和公共知识

读书笔记: 博弈论导论 - 05 - 完整信息的静态博弈 纳什均衡

读书笔记: 博弈论导论 - 06 - 完整信息的静态博弈 混合的策略
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐