强化学习算法分类汇总

您所在的位置:网站首页 统计方法分哪两大类 强化学习算法分类汇总

强化学习算法分类汇总

2024-07-15 09:58| 来源: 网络整理| 查看: 265

文章目录 1. Model-Free 与 Model-Based RL2. Policy-Based 与 Value-Based RL3. Monte-Carlo Update 与 Temporal-Difference Update RL4. On-Policy 与 Off-Policy RL

1. Model-Free 与 Model-Based RL

根据Agent是否理解其所处的环境,即是否知道所依赖的马尔科夫决策过程的状态转移概率及对应回报,可以将强化学习方法分为:无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based RL)。

Model-Free RL直接让Agent在环境中做出动作,通过不断试错来找到针对特定环境的最佳策略。

Model-Based RL通过对环境进行理解,建立一个环境模型,Agent可以在模型中对下一步的状态和反馈做出预测,找出最佳策略,再在现实环境中做出动作。

Model-Free RLModel-Based RLQ LeaningQ LeaningSarsaSarsaPolicy GradientsPolicy Gradients 2. Policy-Based 与 Value-Based RL

根据Agent选取动作的策略不同,可以将强化学习方法分为:基于概率的强化学习(Policy-Based RL)和基于价值的强化学习(Value-Based RL)。

Policy-Based RL中Agent在某一状态时的所有可能动作都有一定概率被选中,只是不同动作有不同的概率。由于概率的分布可以是离散或者连续的,因此基于概率的强化学习适用于离散和连续的两种不同动作的选取。

Value-Based RL中会对Agent在某一状态时的所有可能动作,按对应得到的反馈值进行排序,并选用反馈值最高的动作。基于价值的强化学习只适用于离散动作的选取。

Policy-Based RLValue-Based RLPGQ LeaningSarsaAC、A2C、A3C、SAC(Actor会基于概率做出动作,Critic会评估动作的反馈值) 3. Monte-Carlo Update 与 Temporal-Difference Update RL

根据策略或价值函数的更新频率,可以将强化学习方法分为:回合更新强化学习(Monte-Carlo Update RL, MC)和单步更新强化学习(Temporal-Difference Update RL, TD)

Monte-Carlo Update RL每次都需要采样一条完整的轨迹 τ \tau τ之后才能对策略或价值函数进行更新。

Temporal-Difference Update RL可以在每完成一步(得到一个观测,采取一个动作并得到反馈值)之后就对策略或价值函数进行更新。

Monte-Carlo Update RLTemporal-Difference Update RLPGQ LeaningMC LearningSarsaDDPGPPO、DPPO 4. On-Policy 与 Off-Policy RL

根据Agent是否直接与环境互动进行学习(更新策略或价值函数),可以将强化学习方法分为:在线学习(On-Policy RL)和离线学习(Off-Policy RL)

On-Policy RL需要Agent真实与环境互动,即学习过程中所用到的数据与样本,都是Agent从环境中观测到的。

Off-Policy RL不需要Agent直接与环境互动,即可以通过别的方法获取数据与样本进行学习,不需要Agent直接通过观测环境获得。

On-Policy RLOff-Policy RLSarsaQ LeaningSarsa( λ \lambda λ)DQNAC、A2C、A3CSACPPOTRPO


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3