论文阅读

2023-12-21 03:41| 来源: 网络整理| 查看: 265

文章获取https://doi.org/10.1109/TNNLS.2020.3041469https://doi.org/10.1109/TNNLS.2020.3041469

IEEE TRANSACTION ON NEURAL NETWORKS AND LEARNING SYSTEMS/2020

1 摘要

这篇文章首先将问题表述为Bellman极小极大方程，广义策略迭代(generalized policy iteration,GPI)提供了一种双环迭代方法来寻找均衡。然后，引入神经网络来近似求解大规模问题的Q函数。提出了一种在线极小极大Q网络学习算法，利用观测数据对网络进行训练。采用经验重放(Experience Replay)、对抗网路（dueling network）、双Q学习(Double Q-learning)等方法改进学习过程。

2 介绍

马尔可夫博弈（MGs）是马尔可夫过程(MDP)的扩展.在MGs中，多个代理做出一系列决策，以最大化共同或个人利益。

两人零和MG（TZMG）是一种特殊情况，包括两个利益完全相反的参与者。它们共享相同的奖励功能，但一个目标是最大化未来奖励的总和，而另一个则试图最小化。

纳什均衡是博弈论中的一个重要概念。在均衡状态下，任何参与者都不会在不牺牲自身利益的情况下改变其政策。特别是，对于TZMG，纳什均衡表示一个玩家在面对最坏的对手时能够获得的最高回报。找到纳什均衡策略对于TZMGs中的参与者至关重要。

3 基本概念介绍 3.1 马尔可夫决策过程（MDPs）

通常，马尔可夫过程可用一个五元组来表示：

其中，S是游戏状态集，A是动作集，P是状态转移函数，R是奖励函数，γ是折扣因子，只有一个动作集，下一状态和获得奖励取决于单个agent的行为:

3.2 两人零和马尔可夫对策(TZMG)

TZMG可描述为一个六元组：

其中，O为另一个玩家的动作集。在每一步，两名玩家在博弈中同时决定并执行他们的动作，新状态满足分布：

环境反馈一个奖励信号：

这两个玩家的收益完全相反。一个目标是最大限度地增加未来的回报，另一个的目标是极小化目标。

3.3 纳什或极大极小均衡（Nash or Minimax Equilibrim）

在MGs中，没有一个参与者的策略总是最优的，因为其回报取决于其他行为。衡量一个玩家相对于其他玩家表现的两个著名概念是最佳应对和纳什均衡。对于有两个利益冲突方的TZMG，定义总结如下：

定义1：（TZMG 最佳应对）给定对手策略μ，如果没有比πb更好的策略，则己方策略πb称为最佳应对：

同理，对手的最佳应对：

注：由于两方的目标相反，即一个为极大，一个为极小，所以两者的符号先反，这也是为什么纳什均衡处于两者之间的原因。

定义2：（纳什均衡）纳什均衡对应于一对（π∗,μ∗)这两者都是对彼此最好的回应：

在TZMGs中，总是存在纳什均衡，它等价于极大极小解：

纳什均衡规定了玩家在最差的对手面前可以获得的最大回报，当我们不知道对手或对手是一个可学习的主体并根据我们的策略更新其行为时，纳什均衡是有意义的。

3.4 极大极小值方程

纳什均衡点的语气收益通常表示为极大极小值V*，根据最优化定理，将V*写入贝尔曼极大极小方程：

这里，我们把确定性策略看作是随机策略的特例。它是基于这样一个事实：一旦一个玩家的策略固定，TZMG剩下的问题就变成了单Agent MDP，并且确定性策略足以成为最优策略。

于是，TAMG的Q值可以定义为：

极小极大Q值的Bellman极大极小方程有：

3.5 线性规划求解极小极大方程（LP for Minimax Solution）

在Q值确定后，纳什均衡Π*由下式给出：

将其转化为线性规划模型，有：

纳什均衡点，可求解上诉线性规划方程得到。

4 动态规划求解贝尔曼你极小极大方程

预先定义两个操作符：

第一个式子T通过极大极小计算下一步的值。第二个Tπ遵循给定的自己的策略π，使对手对手动作集的下一步值最小化，因此可以将其看作具有二人Q值的最小化Bellman最优方程。两个式子具有一些共同的性质：

（1）单调和γ-收缩算子（The Operator is monotone and γ-contracting）

（2）具有唯一的固定点(It has unique fixed point)

4.1 价值迭代（Value Iteration）

给定一个初始Q0，Q函数的更新迭代根据T：

4.2 策略迭代（Policy Iteration）

策略迭代(PI)包括策略评估步骤和策略改进步骤,给定一个初始自身策略π0，重复以下两个步骤来生成一系列策略{πi}。

(1)求Q值：

(2)生成新策略

在单agent MDPs中，PI被广泛用于求解最优值和最优策略。然而，MDPs中的策略评估在数值上是一个线性方程，而TZMG中的政策评估则是非线性的，πi是非线性的。这里的策略评估要比MDPs复杂得多。此外，两种情况下的策略改进也有所不同。MDPs采用最大化的方式改进策略，而TZMG采用最小最大优化。

5 极大极小Q网络学习

5.1 Dueling Network and Double Q-learning

Dueling Network的主要概念是将网络分成两个流。一个流是表示依赖于状态的值函数的标量，而另一个流是表示依赖于动作的优势函数的向量。这两个流在输出层聚合，用于state-action Q函数。通过流分离，网络能够在不必学习每个动作的效果的情况下学习状态的值，并且还能够在不考虑状态值的效果的情况下确定贪婪动作。

对于TZMG，Dueling Network也适用于我们的M2QN。网络结构如图:

加入M2QN之后，与dueling DQN相比，不同之处在于动作相关流输出一个| A |×| O |大小的矩阵A（s，A，O），以在给定值处获得（A，O）对的优势。这两个流最终结合起来，生成Q函数：

上述等式中的最后一项是抵消优势流中的状态依赖效应。

Q-学习算法通常遇到的另一个问题是最大化（或最小化）偏差。回顾算法1第8行的目标值，最小值操作符使用相同的值来选择和评估对手动作，从而使目标估计中的偏差最小化。Double Q-learning提出使用两种不同的Q函数将选择与评估分离，并已成功与DQN结合，以减少高估。为了将Double Q-learning应用于M2QN，我们使用当前Q函数选择对手的最差动作，并使用目标Q函数评估最差动作值。算法1中第8行的计算替换为:

然后，梯度下降更新采用上面的第二个式子的目标值来训练当前Q网络。

6 实验 6.1 对称TZMG上的表格M2QN:足球比赛

如下图：游戏在4×5的棋盘上，有两名玩家，A和B。在一场游戏开始时，两名玩家在两个不同的方块上随机初始化，一个球随机分配给一名玩家，在图中用圆圈标记。在每一步，他们可以选择五个动作中的一个移动：左、上、右、下和停留。一旦他们选择了他们的动作，这两个动作将以随机顺序执行。到对方方格，球的占有权让给静止的球员，移动球的权力被取消。一旦一名球员将球带到适当的球门（左为A，右为B），该球员将获得一分奖励，游戏结束。这是一个对称的MG，因此一个玩家的策略适用于另一个玩家。为了避免无限博弈，每一步都有一个0.01可能作为平局终止的概率。

如图3在每10000步之后，我们通过与DP策略玩1000轮并记录他们的胜率来评估学到的策略。勘探效果不包括在评价范围内。M2QN的学习曲线如图3所示，为了减少随机误差，对3次重复实验的结果进行平均。DP采用纳什均衡策略，因此在初始阶段，M2QN策略的胜率较低。随着学习步骤的增加，M2QN使用收集到的观察数据来更新Q表并调整策略。其胜率持续上升，DP下降，反映出M2QN的竞争力越来越强。在60万步之后，我们的M2QN和DP之间的胜率非常接近，这表明M2QN学习了一个接近纳什均衡的策略，即使它是一个online model_free算法。

图4绘制了最终M2QN在给定状态下的Q值和动作概率(如图2所示)。

为了研究算法参数对学习过程的影响，我们重复上述实验，但使用不同的目标更新步骤。结果如图5所示。

为了比较，DP政策对自身的胜率也绘制成一条水平线(粉红色虚线)。由于每一步都有终止平局的概率，DP对自己的胜率为0.432，而不是0.5。但其纳什均衡策略的中胜率最高，所有M2QN学习曲线均趋近于纳什均衡策略。需要注意的是，当t =100, n=10时(橙色)M2QN曲线在初始阶段上升速度最快，但当t =100, n=5时(蓝色)曲线最终最接近DP性能。这与GPI收敛定理是一致的，即一个较大的值可以加速初始学习，但是一个较小的值可以使最终的收敛误差最小。情节还表明，不断减少tornr进一步减慢了学习过程。

在文献中，将传统的单agent RL算法与self-play算法相结合来处理博弈问题。在本实验中，我们将DQN与self-play相结合来学习足球比赛中的球员策略。目标更新频率选择T=100 steps，其余参数保持与M2QN相同。自玩DQN的学习曲线如图6所示。可以明显看出自玩DQN比M2QN提高快，但在中胜率爬升到一定程度后，曲线呈现高振动，反映自玩收敛不稳定。

现在，为了展示不同算法的利用性，我们设计了一系列测试实验来训练DQN挑战者针对DP策略、最终的M2QN策略(T=100,n=5)和最终的自玩DQN策略。在每个测试中，参与人A的策略是固定的，因此博弈简化为一个单agent MDP问题，DQN可以学习参与人B对其对手的最佳反应。我们记录了超过10000个在线步骤的DQN挑战者的平均胜率并绘制了图7：

一开始，DQN的挑战者从非常低的胜率开始。随着学习步骤的增加，他们的胜率上升并迅速收敛。挑战者与自玩DQN的最终胜率要比其他策略高得多，这表明自玩DQN策略具有最高的可利用性。M2QN策略的挑战者的胜率略高于DP策略，这表明M2QN的学习接近纳什均衡。纳什均衡的优势在于它是最“安全”的策略，即使面对最糟糕的对手。在许多情况下，玩家面对的是不断调整自己行为的智能对手。一个脆弱的玩家很容易被误导去制定一个糟糕的政策，并让对手利用它。

在上述实验中，所有状态-动作对的Q值都存储在一个查询表中，该表的更新计算量很大。神经网络以更少的参数近似Q函数，所以我们重复M2QN算法，但在足球比赛中使用神经网络。网络输入由两个球员的归一化位置和一个表示球权人的布尔值组成。

6.2 非对称TZMG上基于nn的M2QN:保卫领土（Guarding a Territory）

在网格中有一个入侵者和一个守卫，在每一步中，他们会从5个行动中选择一个行动:向左，向上，向右，向下和停留。入侵者的目标是一个被标记为领地的网格。入侵成功的条件是入侵者在被占领之前到达领土或者占领发生在领土上。卫兵的目标是在离领土尽可能远的地方拦截入侵者。以守卫为中心的九个牢房构成了它的俘获区。游戏结束时，成功入侵或捕获发生，或当前步骤确定为平局，概率为0.01。然后，守卫和入侵者的位置被随机重置，进入下一轮。这个游戏是非对称的，因为双方玩家需要完全不同的策略。

奖励函数：

6.3 基于nn的TZMG实时大规模M2QN:格斗游戏

【本文地址】

论文阅读

论文阅读

今日新闻

推荐新闻