论文翻译

您所在的位置:网站首页 violate记忆 论文翻译

论文翻译

2023-09-26 09:42| 来源: 网络整理| 查看: 265

典型的深度强化学习算法从 replay buffer 中均匀地采样经验元组以更新值函数。然而,采样元组的方式忽略了 agent 经验的轨迹性质(即元组一个接一个出现,因此后续状态的信息应该快速传播到当前状态)。EVA (Hansen et al., 2018) 通过引入以轨迹为中心的规划 ( trajectory-centric planning TCP) 算法来鼓励更快的价值传播。尽管如此,EVA 仅通过当前轨迹传播价值,我们将其称为情节内传播(intra-episode propagation)。我们的见解是,一种状态可能出现在不同的轨迹中,这样的状态可以作为连接点帮助连接不同的轨迹。因此,我们显式地在记忆中不同轨迹的状态之间构建图,从而允许情节间值传播( inter-episode value propagation)

由于状态图很复杂(例如,不是树结构),因此图上的值传播总是很慢。为了加速传播过程,我们借助轨迹的序列性质来传播值。值传播伪代码如算法 1 所示,总体思路是按照每个轨迹的相反顺序更新图的值。具体来说,当向记忆中添加新状态时,我们把当前轨迹上状态的顺序步骤 t t t 记录为 ID。在关联记忆状态时,我们首先按 ID 降序对 memory 中的元素进行排序,然后迭代地将价值从 ID 较大的状态传播到 ID 较小的状态数,直到 Q G Q_{\mathcal{G}} QG​ 收敛。(注意这个算法是对于某一条episode而言的 Q G Q_{\mathcal{G}} QG​ 更新算法)

在这里插入图片描述

在每次更新时,我们根据图 G \mathcal{G} G 获得当前 (s, a) 和奖励 r 的所有后继状态-动作对 (s’,a’),并对后继动作 a’ 应用最大值操作,以将值传播到当前状态-动作对,形式化如下: Q G ( ϕ ( s ) , a ) ← r + γ max ⁡ a ′ Q G ( ϕ ( s ′ ) , a ′ ) (3) Q_{\mathcal{G}}(\phi(s),a) \leftarrow r +\gamma \max_{a'} Q_{\mathcal{G}}(\phi(s'),a') \tag3 QG​(ϕ(s),a)←r+γa′max​QG​(ϕ(s′),a′)(3) 由于起始阶段的大多数状态在不同的情节中是相似的,我们的逆序更新策略可以有效地传播图的所有值。此外,正如我们在定理 1 中所示,我们的基于图的值传播算法可以收敛到一个唯一的最佳点。证明见附录 A。

定理1:将等式 3 中的 Bellman backup operator 表示为 B : R ∣ S ∣ × ∣ A ∣ → R ∣ S ∣ × ∣ A ∣ \mathcal{B}:\mathbb{R}^\mathcal{|S| \times |A|} \to \mathbb{R}^\mathcal{|S| \times |A|} B:R∣S∣×∣A∣→R∣S∣×∣A∣ 和 Q 0 : S × A → R ∣ S ∣ × ∣ A ∣ , ∣ S ∣ < ∞ , ∣ A ∣ < ∞ Q^0:\mathcal{S×A} \to \mathbb{R}^\mathcal{|S|\times|A|},|S|< \infin,|A|



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3