[强化学习

#[强化学习| 来源: 网络整理| 查看: 265

最近又开始重新学习强化学习了，记录一下历程

MP(马尔科夫过程)

定义：S是有限状态集合，P是状态转移概率矩阵这里写图片描述例子：我们将一次有限步数的实验称作一个单独的episode 1. C1 C2 Pass Sleep 2. C1 FB FB

MRP(马尔科夫奖励过程)

定义：比MP多了个reward，只要达到某个状态会获得相应奖励R，γ是折扣因子，一个episode中越往后的时刻奖励越打折扣 Reward：每个状态下执行action后立即（从系统以外的环境）获得的评价性响应，必须直接对应RL学习的最终目标这里写图片描述 Return：累积的未来Reward 例子： Value：Return的期望 MRP中的贝尔曼等式：V(s)价值函数，然后按照定义展开，变换得到迭代公式(当前时刻该状态价值和下一时刻转移过去的状态价值的关系)划红线处依据好像是期望的期望的等于期望这里写图片描述我们先把贝尔曼方程改成了矩阵形式，然后我们需要收敛时状态价值即V(s) = V(s’)时，这时方程变成V=R+γPV，然后利用矩阵的变换直接求解该方程组得到最终收敛的状态价值但是直接解方程组的复杂度为O(n^3)，一般可通过动态规划、蒙特卡洛估计与 Temporal-Difference learning 求解，后续会讲。

MDP(马尔科夫决策过程)

定义：比MRP多了个动作A，这里写图片描述

策略π的定义：给定状态时采取各个动作的概率分布，不是说给定一个状态该采取什么动作，而给出一个动作的概率分布这里写图片描述状态价值函数和动作价值函数的定义：给定一个策略π(给定状态时采取各个动作的概率分布) MRP中的贝尔曼等式：图示: 蓝色大括号是对Q的展开 MDP 是一个多层的 MRP，每一层对应一个行动 a. MRP是没有动作的，MDP这里每一层对应一个动作a，然后Pa1就是在动作a下的状态转移概率矩阵，右面的细节放大图是它先按照在所有状态下都采用动作a1 a2等算完，然后再重排成纯蓝色块块，代表P的语义，即给定状态如s1下采取各个动作后转移到下一状态的概率矩阵这里写图片描述

Action-Value Function类似

qπ(s, a)与qπ(s’, a’)、vπ(s’)的关系这里写图片描述 MDP里，给定策略π下，在状态s下选择a的动作值函数，qπ(s, a)类似之前的MRP里面的v(s)。而MDP中的v(s)是要考虑在状态s下采取各个动作后情况。

贝尔曼最优方程

v∗(s)和q∗(s,a)的定义v∗(s)就是选取使q∗(s,a)最大的动作q∗(s,a)就是选择动作a后到达不同状态的状态值函数的求和 v ∗ ( s ) 和 q ∗ ( s , a ) 的定义 v ∗ ( s ) 就是选取使 q ∗ ( s , a ) 最大的动作 q ∗ ( s , a ) 就是选择动作 a 后到达不同状态的状态值函数的求和这里写图片描述

v∗(s)和q∗(s,a)的迭代公式 v ∗ ( s ) 和 q ∗ ( s , a ) 的迭代公式这里写图片描述

强化学习中的reward function为什么要取期望？ YCJIANG的回答David Silver的强化学习课件

【本文地址】

[强化学习

[强化学习

今日新闻

推荐新闻