莫烦强化学习笔记

您所在的位置:网站首页 q值表 莫烦强化学习笔记

莫烦强化学习笔记

2023-04-01 17:28| 来源: 网络整理| 查看: 265

莫烦强化学习笔记

Jan 4, 2021 | Reinforcement Learning | Reinforcement Learning | 阅读量

强化学习方法汇总 课程要求 Q learning 什么是Q learning 实战示例1 一维的贪吃蛇 实战示例2 走迷宫 Sarsa Sarsa($\lambda$)

本文是对莫烦的强化学习课程的总结以及自己的理解,若有侵权,请联系删除

强化学习方法汇总 不理解环境(model-free RL) 理解环境(model based RL) 只根据环境反馈进行学习 构建出环境的虚拟模型 Q Learning model-free能用的算法model based都能用,只不过model based可以在虚拟世界里学习 Sarsa 根据想象预判接下来要发生的事情,然后选择最好的执行 Policy Gradient   基于概率(policy-free RL) 基于价值(value based RL) 生成所有动作的概率,根据概率选动作 生成所有动作的价值,根据最高价值选动作 policy gradients Q Learning   Sarsa 基于概率和基于价值结合构成Actor-Critic, Actor基于概率做出动作,Critic给出做出动作的价值。加速了学习过程 回合更新(Monte-Carlo update) 单步更新(Temporal-difference update) 基础版Policy Gradient Q Learning Monte-Carlo Learning Sarsa   升级版 Policy Gradient 在线学习(on-policy) 离线学习(off-policy) 本人自己玩,自己学习 可以看着别人玩,自己学习 Sarsa Q learning Sarsa($\lambda$) Deep Q Network 课程要求 学习资料 OpenAI gym 官网 Numpy, pandas,Matplotlib, Tkinter, Tensorflow, OpenAI gym. Q learning 什么是Q learning

状态s1 :写作业

动作a1:看电视,a2: 写作业

Q-Learning 算法

其中

$\varepsilon$-greedy 是一种决策方式,有$\varepsilon$的概率选择最优Q值得动作,但也有$1-\varepsilon$的概率随机选择动作。目的是能够探索新的动作。 $Q(s,a)\leftarrow Q(s,a)+\alpha[r+\gamma\max_{a’}Q(s’,a’)-Q(s,a)]$是Q值得更新公式 $\alpha$是学习率,$ r$是状态$s$进行动作$a$变到状态$s‘$的奖励,$\gamma$是记忆系数. $r+\gamma\max_{a’}Q(s’,a’)$是当前的奖励与未来的奖励的和,也就是$Q(s,a)$的现实值 因为$r+\gamma\max_{a’}Q(s’,a’)=r+\gamma[r’+\gamma \max_{a’‘}Q(s’‘,a’’)]=r+\gamma r’+\gamma^2 r’’+\cdots$, 也就是未来所有奖励的和, $\gamma$就是未来的奖励所占的比重系数,若$\gamma=1$,未来的奖励也同样重要, 若$\gamma=0$,就只看当前奖励,忽略未来的所有奖励。 $Q(s,a)$是当前的估计值,用现实值-估计值,就是可以得到更新值$r+\gamma\max_{a’}Q(s’,a’)-Q(s,a)$ 学习率$0 摄影基础系列——后期调色 摄影基础系列——Adobe illustrator教程笔记

对本文有任何问题,请在下面评论:



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3