莫烦强化学习笔记

2023-04-01 17:28| 来源: 网络整理| 查看: 265

莫烦强化学习笔记

Jan 4, 2021 | Reinforcement Learning | Reinforcement Learning | 阅读量

强化学习方法汇总课程要求 Q learning 什么是Q learning 实战示例1 一维的贪吃蛇实战示例2 走迷宫 Sarsa Sarsa($\lambda$)

本文是对莫烦的强化学习课程的总结以及自己的理解，若有侵权，请联系删除

强化学习方法汇总不理解环境（model-free RL）理解环境（model based RL）只根据环境反馈进行学习构建出环境的虚拟模型 Q Learning model-free能用的算法model based都能用，只不过model based可以在虚拟世界里学习 Sarsa 根据想象预判接下来要发生的事情，然后选择最好的执行 Policy Gradient 基于概率（policy-free RL）基于价值（value based RL）生成所有动作的概率，根据概率选动作生成所有动作的价值，根据最高价值选动作 policy gradients Q Learning Sarsa 基于概率和基于价值结合构成Actor-Critic, Actor基于概率做出动作，Critic给出做出动作的价值。加速了学习过程回合更新（Monte-Carlo update）单步更新（Temporal-difference update）基础版Policy Gradient Q Learning Monte-Carlo Learning Sarsa 升级版 Policy Gradient 在线学习（on-policy）离线学习（off-policy）本人自己玩，自己学习可以看着别人玩，自己学习 Sarsa Q learning Sarsa($\lambda$) Deep Q Network 课程要求学习资料 OpenAI gym 官网 Numpy, pandas,Matplotlib, Tkinter, Tensorflow, OpenAI gym. Q learning 什么是Q learning

状态s1 :写作业

动作a1:看电视，a2: 写作业

Q-Learning 算法

其中

$\varepsilon$-greedy 是一种决策方式，有$\varepsilon$的概率选择最优Q值得动作，但也有$1-\varepsilon$的概率随机选择动作。目的是能够探索新的动作。 $Q(s,a)\leftarrow Q(s,a)+\alpha[r+\gamma\max_{a’}Q(s’,a’)-Q(s,a)]$是Q值得更新公式 $\alpha$是学习率，$ r$是状态$s$进行动作$a$变到状态$s‘$的奖励，$\gamma$是记忆系数. $r+\gamma\max_{a’}Q(s’,a’)$是当前的奖励与未来的奖励的和，也就是$Q(s,a)$的现实值因为$r+\gamma\max_{a’}Q(s’,a’)=r+\gamma[r’+\gamma \max_{a’‘}Q(s’‘,a’’)]=r+\gamma r’+\gamma^2 r’’+\cdots$, 也就是未来所有奖励的和， $\gamma$就是未来的奖励所占的比重系数，若$\gamma=1$，未来的奖励也同样重要，若$\gamma=0$，就只看当前奖励，忽略未来的所有奖励。 $Q(s,a)$是当前的估计值，用现实值-估计值，就是可以得到更新值$r+\gamma\max_{a’}Q(s’,a’)-Q(s,a)$ 学习率$0 摄影基础系列——后期调色摄影基础系列——Adobe illustrator教程笔记

对本文有任何问题，请在下面评论：

【本文地址】

莫烦强化学习笔记

莫烦强化学习笔记

今日新闻

推荐新闻