[强化学习 |
您所在的位置:网站首页 › mro和mrp的区别 › [强化学习 |
最近又开始重新学习强化学习了,记录一下历程 MP(马尔科夫过程)定义:S是有限状态集合,P是状态转移概率矩阵 定义:比MP多了个reward,只要达到某个状态会获得相应奖励R,γ是折扣因子,一个episode中越往后的时刻奖励越打折扣 Reward:每个状态下执行action后立即(从系统以外的环境)获得的评价性响应,必须直接对应RL学习的最终目标 定义:比MRP多了个动作A, 策略π的定义:给定状态时采取各个动作的概率分布,不是说给定一个状态该采取什么动作,而给出一个动作的概率分布 Action-Value Function类似 qπ(s, a)与qπ(s’, a’)、vπ(s’)的关系
v∗(s)和q∗(s,a)的定义v∗(s)就是选取使q∗(s,a)最大的动作q∗(s,a)就是选择动作a后到达不同状态的状态值函数的求和
v
∗
(
s
)
和
q
∗
(
s
,
a
)
的
定
义
v
∗
(
s
)
就
是
选
取
使
q
∗
(
s
,
a
)
最
大
的
动
作
q
∗
(
s
,
a
)
就
是
选
择
动
作
a
后
到
达
不
同
状
态
的
状
态
值
函
数
的
求
和
v∗(s)和q∗(s,a)的迭代公式
v
∗
(
s
)
和
q
∗
(
s
,
a
)
的
迭
代
公
式
|
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |