强化学习算法分类汇总

2024-07-15 09:58| 来源: 网络整理| 查看: 265

文章目录 1. Model-Free 与 Model-Based RL2. Policy-Based 与 Value-Based RL3. Monte-Carlo Update 与 Temporal-Difference Update RL4. On-Policy 与 Off-Policy RL

1. Model-Free 与 Model-Based RL

根据Agent是否理解其所处的环境，即是否知道所依赖的马尔科夫决策过程的状态转移概率及对应回报，可以将强化学习方法分为：无模型的强化学习(Model-Free RL)和基于模型的强化学习(Model-Based RL)。

Model-Free RL直接让Agent在环境中做出动作，通过不断试错来找到针对特定环境的最佳策略。

Model-Based RL通过对环境进行理解，建立一个环境模型，Agent可以在模型中对下一步的状态和反馈做出预测，找出最佳策略，再在现实环境中做出动作。

Model-Free RLModel-Based RLQ LeaningQ LeaningSarsaSarsaPolicy GradientsPolicy Gradients 2. Policy-Based 与 Value-Based RL

根据Agent选取动作的策略不同，可以将强化学习方法分为：基于概率的强化学习(Policy-Based RL)和基于价值的强化学习(Value-Based RL)。

Policy-Based RL中Agent在某一状态时的所有可能动作都有一定概率被选中，只是不同动作有不同的概率。由于概率的分布可以是离散或者连续的，因此基于概率的强化学习适用于离散和连续的两种不同动作的选取。

Value-Based RL中会对Agent在某一状态时的所有可能动作，按对应得到的反馈值进行排序，并选用反馈值最高的动作。基于价值的强化学习只适用于离散动作的选取。

Policy-Based RLValue-Based RLPGQ LeaningSarsaAC、A2C、A3C、SAC(Actor会基于概率做出动作，Critic会评估动作的反馈值) 3. Monte-Carlo Update 与 Temporal-Difference Update RL

根据策略或价值函数的更新频率，可以将强化学习方法分为：回合更新强化学习(Monte-Carlo Update RL, MC)和单步更新强化学习(Temporal-Difference Update RL, TD)

Monte-Carlo Update RL每次都需要采样一条完整的轨迹 τ \tau τ之后才能对策略或价值函数进行更新。

Temporal-Difference Update RL可以在每完成一步(得到一个观测，采取一个动作并得到反馈值)之后就对策略或价值函数进行更新。

Monte-Carlo Update RLTemporal-Difference Update RLPGQ LeaningMC LearningSarsaDDPGPPO、DPPO 4. On-Policy 与 Off-Policy RL

根据Agent是否直接与环境互动进行学习(更新策略或价值函数)，可以将强化学习方法分为：在线学习(On-Policy RL)和离线学习(Off-Policy RL)

On-Policy RL需要Agent真实与环境互动，即学习过程中所用到的数据与样本，都是Agent从环境中观测到的。

Off-Policy RL不需要Agent直接与环境互动，即可以通过别的方法获取数据与样本进行学习，不需要Agent直接通过观测环境获得。

On-Policy RLOff-Policy RLSarsaQ LeaningSarsa( λ \lambda λ)DQNAC、A2C、A3CSACPPOTRPO

【本文地址】

今日新闻