[强化学习

您所在的位置:网站首页 mro和mrp的区别 [强化学习

[强化学习

#[强化学习| 来源: 网络整理| 查看: 265

最近又开始重新学习强化学习了,记录一下历程

MP(马尔科夫过程)

定义:S是有限状态集合,P是状态转移概率矩阵 这里写图片描述 例子: 这里写图片描述 我们将一次有限步数的实验称作一个单独的episode 1. C1 C2 Pass Sleep 2. C1 FB FB

MRP(马尔科夫奖励过程)

定义:比MP多了个reward,只要达到某个状态会获得相应奖励R,γ是折扣因子,一个episode中越往后的时刻奖励越打折扣 Reward:每个状态下执行action后立即(从系统以外的环境)获得的评价性响应,必须直接对应RL学习的最终目标 这里写图片描述 Return:累积的未来Reward 这里写图片描述 例子: 这里写图片描述 Value:Return的期望 这里写图片描述 MRP中的贝尔曼等式:V(s)价值函数,然后按照定义展开,变换得到迭代公式(当前时刻该状态价值和下一时刻转移过去的状态价值的关系)划红线处依据好像是期望的期望的等于期望 这里写图片描述 我们先把贝尔曼方程改成了矩阵形式,然后我们需要收敛时状态价值即V(s) = V(s’)时,这时方程变成V=R+γPV,然后利用矩阵的变换直接求解该方程组得到最终收敛的状态价值 但是直接解方程组的复杂度为O(n^3),一般可通过动态规划、蒙特卡洛估计与 Temporal-Difference learning 求解,后续会讲。

MDP(马尔科夫决策过程)

定义:比MRP多了个动作A, 这里写图片描述

策略π的定义:给定状态时采取各个动作的概率分布,不是说给定一个状态该采取什么动作,而给出一个动作的概率分布 这里写图片描述 状态价值函数和动作价值函数的定义:给定一个策略π(给定状态时采取各个动作的概率分布) 这里写图片描述 MRP中的贝尔曼等式: 这里写图片描述 图示: 蓝色大括号是对Q的展开 MDP 是一个多层的 MRP,每一层对应一个行动 a. MRP是没有动作的,MDP这里每一层对应一个动作a,然后Pa1就是在动作a下的状态转移概率矩阵,右面的细节放大图是它先按照在所有状态下都采用动作a1 a2等算完,然后再重排成纯蓝色块块,代表P的语义,即给定状态如s1下采取各个动作后转移到下一状态的概率矩阵 这里写图片描述

Action-Value Function类似

qπ(s, a)与qπ(s’, a’)、vπ(s’)的关系 这里写图片描述 MDP里,给定策略π下,在状态s下选择a的动作值函数,qπ(s, a)类似之前的MRP里面的v(s)。而MDP中的v(s)是要考虑在状态s下采取各个动作后情况。

贝尔曼最优方程

v∗(s)和q∗(s,a)的定义v∗(s)就是选取使q∗(s,a)最大的动作q∗(s,a)就是选择动作a后到达不同状态的状态值函数的求和 v ∗ ( s ) 和 q ∗ ( s , a ) 的 定 义 v ∗ ( s ) 就 是 选 取 使 q ∗ ( s , a ) 最 大 的 动 作 q ∗ ( s , a ) 就 是 选 择 动 作 a 后 到 达 不 同 状 态 的 状 态 值 函 数 的 求 和 这里写图片描述

v∗(s)和q∗(s,a)的迭代公式 v ∗ ( s ) 和 q ∗ ( s , a ) 的 迭 代 公 式 这里写图片描述

强化学习中的reward function为什么要取期望? YCJIANG的回答David Silver的强化学习课件


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3