强化学习13

2024-06-08 04:50| 来源: 网络整理| 查看: 265

上篇文章介绍了强化学习——Actor-Critic算法详解加实战介绍了Actor-Critic，本篇文章将介绍 DDPG 算法，DDPG 全称是 Deep Deterministic Policy Gradient（深度确定性策略梯度算法）其中 PG 就是前面介绍的 Policy Gradient，在强化学习10——Policy Gradient 推导已经讨论过，那什么是确定性策略梯度呢？

一、确定性策略

与确定性策略对应的是随机性策略，就是神经网络输出的是动作的分布，在确定每一步动作时，需要得到的策略分布进行采样，对于某些高纬的连续值动作，频繁的在高维空间对动作进行采样，是很耗费计算能力的。

同样，对于DQN算法，其只适用于低维、离散动作的问题，对于连续动作问题，DQN要计算所有可能动作的概率，并计算可能的动作的价值，动作的数量随着自由度的数量呈指数增长，那需要非常的样本量与计算量，所以就有了确定性策略来简化这个问题。

作为随机策略，在相同的策略，在同一个状态处，采用的动作是基于一个概率分布的，即是不确定的。而确定性策略就简单的多，即使用相同的策略，在同一状态下，动作是唯一确定的： a t = μ ( s ∣ θ μ ) a_t = \mu(s|\theta^\mu) at=μ(s∣θμ)

二、DDPG

首先要注意一点，DDPG从名字上像一个策略梯度（PG）算法，但是其实它更接近DQN，或者说DDPG是使用的 Actor-Critic 架构来解决DQN不能处理连续动作控制问题的一个算法，这点一定要注意。下面来详细解释为什么这么说

1、从 Q-Learning 到 DQN

先回忆下Q-Learning的算法流程，在强化学习4——时序差分控制算法中已经详细介绍过Q-Learning算法：首先基于状态 S t S_t St，用 ϵ − \epsilon- ϵ−贪婪法选择到动作 A t A_t At 并执行，进入状态 S t + 1 S_{t+1} St+1，并得到奖励 R t R_{t} Rt，然后利用得到的 < S , A , R , S ′ >

【本文地址】

强化学习13

强化学习13

今日新闻

推荐新闻