强化学习第2章

您所在的位置:网站首页 经济学中的mrp是什么意思 强化学习第2章

强化学习第2章

2024-06-13 13:58| 来源: 网络整理| 查看: 265

一、简介

RL与其他ML的区别(特点):

无监督,只有奖励信号

反馈延迟

时间顺序:动态系统,受不同环境影响很大

采用不同的措施应对不同的环境:独立同分布数据不符合RL

假设:

量化奖励信号,通过最大化累积奖励进行训练。

对于多目标,不同目标设置不同权重值的奖励,以达到累积奖励最大化的目标

input: 观察,奖励

output:动作

无法控制外部环境,只能产生动作

个体和环境 Agent & Environment

在这里插入图片描述

环境可以:

接收个体的动作 A t A_t At​ ,更新环境信息,同时使得个体可以得到下一个观测 Q t + 1 Q_{t+1} Qt+1​,给个体一个奖励信号 R t + 1 R_{t+1} Rt+1​

history and state:

在这里插入图片描述

关系:

agent根据history决定action

环境根据history决定下一个观察和奖励

由于history数据太过庞大,且满足马尔可夫性质,state是history的总结

环境状态: S t e S_t^e Ste​

agent状态: S t a S_t^a Sta​ agent state决定下一步动作的信息

环境状态

是环境的私有呈现,包括环境用来决定下一个观测/奖励的所有数据,通常对个体并不完全可见,也就是个体有时候并不知道环境状态的所有细节。即使有时候环境状态对个体可以是完全可见的,这些信息也可能包含着一些无关信息。

个体状态

是个体的内部呈现,包括个体可以使用的、决定未来动作的所有信息。个体状态是强化学习算法可以利用的信息,它可以是历史的一个函数: S t a = f ( H t ) S_{t}^{a}=f\left(H_{t}\right) Sta​=f(Ht​)

信息状态

包括历史上所有有用的信息,又称Markov状态。

全观察: O t = = S t e = = S t a O_t == S_t^e == S_t^a Ot​==Ste​==Sta​

部分观察: S t e ! = S t a S_t^e != S_t^a Ste​!=Sta​

个体必须构建它自己的状态呈现形式,

记住完整的历史: S t a = H t S_{t}^{a}=H_{t} Sta​=Ht​

Beliefs of environment state:此时虽然个体不知道环境状态到底是什么样,但个体可以利用已有经验(数据),用各种个体已知状态的(贝叶斯)概率分布作为当前时刻的个体状态的呈现:

img

Recurrent neural network:不需要知道概率,只根据当前的个体状态以及当前时刻个体的观测,送入循环神经网络(RNN)中得到一个当前个体状态的呈现:

img

agent的组成部分:

策略:表现形式,决定agent行为

奖励:对未来奖励的预测,用来评价当前状态的好坏程度。当面对两个不同的状态时,个体可以用一个Value值来评估这两个状态可能获得的最终奖励区别,继而指导选择不同的行为,即制定不同的策略。同时,一个价值函数是基于某一个特定策略的,不同的策略下同一状态的价值并不相同。

模型:agent认为的环境:next state and reward(不是必须的)

RL and planning:

学习:环境初始时是未知的,个体不知道环境如何工作,个体通过与环境进行交互,逐渐改善其行为策略。

规划: 环境是已知或近似已知的,个体并不与环境发生实际的交互,而是利用其构建的模型进行计算,在此基础上改善其行为策略。

一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。

Exploration and exploitation:

Exploration:找到更多关于环境的信息

Exploitation:利用已知信息最大化奖励

prediction and controll:

在强化学习里,我们经常需要先解决关于预测(prediction)的问题,而后在此基础上解决关于控制(Control)的问题。

预测:给定一个策略,评价未来。可以看成是求解在给定策略下的价值函数的过程。eg.找到一个价值函数适配统一的随机策略控制:找到一个好的策略来最大化未来的奖励 二、MDP

(马尔可夫决策过程)MDP:描述一种可完全观察的环境(如果只能观察到部分环境,也能转化为完全观察的环境)

马尔可夫性质/马尔可夫链/马尔可夫链:t+1时刻的状态仅取决于t时刻的状态,与之前的状态无关

马尔可夫过程/马尔可夫链:

元祖:

S:状态

P:转换概率

(马尔可夫奖励过程)MRP:

R:s状态下,t+1时刻的奖励

r:折扣因子

使用折扣计算的原因:

从数学上可以避免在计算return时因陷入循环而无法求解

反映了远期奖励对于当前状态具有一定的不确定性

目标:

G t G_t Gt​:RL的目标,累积奖励最大化。从某一个状态 St 开始采样直到终止状态时所有 奖励的有衰减的之和。

用来反映一个状态的重要程度

由于 G t G_t Gt​本身具有局限性,所以引入value function来描述状态的重要性。

如果序列本身可以终结,那么r可以取值为1

value函数:

在状态s下,MRP获得的(累积)奖励的期望。一个状态的价值就是该状态(在不同状态序列下)的收获的期望。

当采样生成的状态序列越多,计算得到的平均收 获就越接近该状态的价值,因而价值可以准确地反映某一状态的重要程度。

价值函数建立了从状态到价值的映射。

bellman公式:迭代方法

Value function可以分为两部分:

及时奖励 R t + 1 R_{t+1} Rt+1​

之后一系列的折扣奖励 r v ( S t + 1 ) rv(S_{t+1}) rv(St+1​)=>下一时刻的折扣奖励

MDP:MRP引入决策过程

: A:一组动作的有限集合

MDP:

策略:当前状态下采取的动作(与时间步无关,任意时刻在该状态下采取的动作是一样的)

基于状态的价值函数:基于某种策略下产生不同的动作所获得的价值

v π ( s ) = m a x ∗ q ∗ ( s , a ) v_\pi(s) = max_{*}q_{*}(s,a) vπ​(s)=max∗​q∗​(s,a)

基于动作的价值函数:

与MRP类似,在某个状态下,只做出该动作获得的价值



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3