论文翻译

2023-09-26 09:42| 来源: 网络整理| 查看: 265

典型的深度强化学习算法从 replay buffer 中均匀地采样经验元组以更新值函数。然而，采样元组的方式忽略了 agent 经验的轨迹性质（即元组一个接一个出现，因此后续状态的信息应该快速传播到当前状态）。EVA (Hansen et al., 2018) 通过引入以轨迹为中心的规划 ( trajectory-centric planning TCP) 算法来鼓励更快的价值传播。尽管如此，EVA 仅通过当前轨迹传播价值，我们将其称为情节内传播（intra-episode propagation）。我们的见解是，一种状态可能出现在不同的轨迹中，这样的状态可以作为连接点帮助连接不同的轨迹。因此，我们显式地在记忆中不同轨迹的状态之间构建图，从而允许情节间值传播（ inter-episode value propagation）

由于状态图很复杂（例如，不是树结构），因此图上的值传播总是很慢。为了加速传播过程，我们借助轨迹的序列性质来传播值。值传播伪代码如算法 1 所示，总体思路是按照每个轨迹的相反顺序更新图的值。具体来说，当向记忆中添加新状态时，我们把当前轨迹上状态的顺序步骤 t t t 记录为 ID。在关联记忆状态时，我们首先按 ID 降序对 memory 中的元素进行排序，然后迭代地将价值从 ID 较大的状态传播到 ID 较小的状态数，直到 Q G Q_{\mathcal{G}} QG 收敛。（注意这个算法是对于某一条episode而言的 Q G Q_{\mathcal{G}} QG 更新算法）

在这里插入图片描述

在每次更新时，我们根据图 G \mathcal{G} G 获得当前 (s, a) 和奖励 r 的所有后继状态-动作对 (s’,a’)，并对后继动作 a’ 应用最大值操作，以将值传播到当前状态-动作对，形式化如下： Q G ( ϕ ( s ) , a ) ← r + γ max ⁡ a ′ Q G ( ϕ ( s ′ ) , a ′ ) (3) Q_{\mathcal{G}}(\phi(s),a) \leftarrow r +\gamma \max_{a'} Q_{\mathcal{G}}(\phi(s'),a') \tag3 QG(ϕ(s),a)←r+γa′maxQG(ϕ(s′),a′)(3) 由于起始阶段的大多数状态在不同的情节中是相似的，我们的逆序更新策略可以有效地传播图的所有值。此外，正如我们在定理 1 中所示，我们的基于图的值传播算法可以收敛到一个唯一的最佳点。证明见附录 A。

定理1：将等式 3 中的 Bellman backup operator 表示为 B : R ∣ S ∣ × ∣ A ∣ → R ∣ S ∣ × ∣ A ∣ \mathcal{B}:\mathbb{R}^\mathcal{|S| \times |A|} \to \mathbb{R}^\mathcal{|S| \times |A|} B:R∣S∣×∣A∣→R∣S∣×∣A∣ 和 Q 0 : S × A → R ∣ S ∣ × ∣ A ∣ , ∣ S ∣ < ∞ , ∣ A ∣ < ∞ Q^0:\mathcal{S×A} \to \mathbb{R}^\mathcal{|S|\times|A|},|S|< \infin,|A|

【本文地址】

论文翻译

论文翻译

今日新闻

推荐新闻