强化学习13 |
您所在的位置:网站首页 › cannon算法详解 › 强化学习13 |
上篇文章介绍了强化学习——Actor-Critic算法详解加实战 介绍了Actor-Critic,本篇文章将介绍 DDPG 算法,DDPG 全称是 Deep Deterministic Policy Gradient(深度确定性策略梯度算法) 其中 PG 就是前面介绍的 Policy Gradient,在强化学习10——Policy Gradient 推导 已经讨论过,那什么是确定性策略梯度呢? 一、确定性策略与确定性策略对应的是随机性策略,就是神经网络输出的是动作的分布,在确定每一步动作时,需要得到的策略分布进行采样,对于某些高纬的连续值动作,频繁的在高维空间对动作进行采样,是很耗费计算能力的。 同样,对于DQN算法,其只适用于低维、离散动作的问题,对于连续动作问题,DQN要计算所有可能动作的概率,并计算可能的动作的价值,动作的数量随着自由度的数量呈指数增长,那需要非常的样本量与计算量,所以就有了确定性策略来简化这个问题。 作为随机策略,在相同的策略,在同一个状态处,采用的动作是基于一个概率分布的,即是不确定的。而确定性策略就简单的多,即使用相同的策略,在同一状态下,动作是唯一确定的: a t = μ ( s ∣ θ μ ) a_t = \mu(s|\theta^\mu) at=μ(s∣θμ) 二、DDPG首先要注意一点,DDPG从名字上像一个策略梯度(PG)算法,但是其实它更接近DQN,或者说DDPG是使用的 Actor-Critic 架构来解决DQN不能处理连续动作控制问题的一个算法,这点一定要注意。下面来详细解释为什么这么说 1、从 Q-Learning 到 DQN先回忆下Q-Learning的算法流程,在 强化学习4——时序差分控制算法 中已经详细介绍过Q-Learning算法:首先基于状态 S t S_t St,用 ϵ − \epsilon- ϵ−贪婪法选择到动作 A t A_t At 并执行,进入状态 S t + 1 S_{t+1} St+1,并得到奖励 R t R_{t} Rt,然后利用得到的 < S , A , R , S ′ > |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |