强化学习13

您所在的位置:网站首页 cannon算法详解 强化学习13

强化学习13

2024-06-08 04:50| 来源: 网络整理| 查看: 265

上篇文章介绍了强化学习——Actor-Critic算法详解加实战 介绍了Actor-Critic,本篇文章将介绍 DDPG 算法,DDPG 全称是 Deep Deterministic Policy Gradient(深度确定性策略梯度算法) 其中 PG 就是前面介绍的 Policy Gradient,在强化学习10——Policy Gradient 推导 已经讨论过,那什么是确定性策略梯度呢?

一、确定性策略

与确定性策略对应的是随机性策略,就是神经网络输出的是动作的分布,在确定每一步动作时,需要得到的策略分布进行采样,对于某些高纬的连续值动作,频繁的在高维空间对动作进行采样,是很耗费计算能力的。

同样,对于DQN算法,其只适用于低维、离散动作的问题,对于连续动作问题,DQN要计算所有可能动作的概率,并计算可能的动作的价值,动作的数量随着自由度的数量呈指数增长,那需要非常的样本量与计算量,所以就有了确定性策略来简化这个问题。

作为随机策略,在相同的策略,在同一个状态处,采用的动作是基于一个概率分布的,即是不确定的。而确定性策略就简单的多,即使用相同的策略,在同一状态下,动作是唯一确定的: a t = μ ( s ∣ θ μ ) a_t = \mu(s|\theta^\mu) at​=μ(s∣θμ)

二、DDPG

首先要注意一点,DDPG从名字上像一个策略梯度(PG)算法,但是其实它更接近DQN,或者说DDPG是使用的 Actor-Critic 架构来解决DQN不能处理连续动作控制问题的一个算法,这点一定要注意。下面来详细解释为什么这么说

1、从 Q-Learning 到 DQN

先回忆下Q-Learning的算法流程,在 强化学习4——时序差分控制算法 中已经详细介绍过Q-Learning算法:首先基于状态 S t S_t St​,用 ϵ − \epsilon- ϵ−贪婪法选择到动作 A t A_t At​ 并执行,进入状态 S t + 1 S_{t+1} St+1​,并得到奖励 R t R_{t} Rt​,然后利用得到的 < S , A , R , S ′ >



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3