马尔科夫决策过程（MDP）五大元素

您所在的位置：网站首页 › 五大元素的作用是什么 › 马尔科夫决策过程（MDP）五大元素

马尔科夫决策过程（MDP）五大元素

2024-07-12 13:18| 来源: 网络整理| 查看: 265

文章目录什么是马尔科夫决策过程（Markove Decision Progress, MDP）？ MDP五大元素什么是决策规则(Decision Rules,DR) 什么是策略

什么是马尔科夫决策过程（Markove Decision Progress, MDP）？

生活中无时无刻不在做决定。假如以“时间 t t t”为横坐标轴，每个离散时刻的状态为随机变量 X t X_t Xt（ X t X_t Xt服从某个分布，离散的或连续）,存在一个动作集合 Φ \Phi Φ，同时维持一个奖励或者损失函数 C C C，以及一个状态转移概率 P P P。那么通俗一点，MDP过程就可以定义为，在时间序列上，以上述五元素为已知条件，根据某种策略 π ∈ Π \pi\in\Pi π∈Π，得到一条使得目标函数 F ( C ) F(C) F(C) 的决策序列。这个定义不是严谨的，但是容易理解。

举个例子：假如我们以我们一天的生活为时间轴，1个小时为一个坐标点，以饥饿程度为状态，状态空间为：(特别饿，比较饿，刚好，满足，撑了)，以“进食和“不进食”为动作集合，以”过一个钟头就饿一成“为损失函数，状态转移方程为：撑了还吃的概率为0（那么不吃的概率就为1），满足还吃的概率为0.1，刚好还吃的概率为0.3，比较饿才吃的概率为0.6，饿极了再吃的概率为0.9（假设那0.1是饭撒了或者没钱了-_-）。那么给定一个初始状态，比如说：刚好，饥饿程度随时间增加，那么一个小时做一次决策，决定进食还是不进食，这样一天下来，我们所经历的状态和所做的决定就构成了一条MDP采样。

MDP五大元素

上述的五元素就是MDP问题的五个元素：

决策周期 T T T. 系统状态 S S S. 动作集合 A A A. 转移概率 P P P. 奖惩函数 C C C.

其中，根据 T T T的长度有限(finite)和无限(infinite)可以分为，有限决策过程(finite horizon problem)和无限决策过程(infinite horizon problem)；根据 T T T的离散还是连续又分为，离散决策问题(discrete MDP problem)和连续决策问题(consecutive MDP problem)。

决策的发生点：

所有决策epoch（epoch是指决策周期中的一个完整的决策过程，比方说12个小时是一个决策周期，那么每个小时就是一个epoch，这样一条链中就有11个决策epoch，决策发生在epoch的开始）队列系统中的随机事件的发生点，比方说只在事件到达时做决策关键点决策，这个简单，比方说，指定在1,3,5等时间点做决策，其他时间点不决策

因此，提起MDP，不一定只是每epochMDP。

系统状态 S S S和动作集合 A A A：

均可为任意有限集合

均可为任意可数无限集合

什么是可数无限集合呢？一般指这样的集合，集合中的元素能够与自然数产生一一映射，数量上无限，或者说该集合是全体自然数集合的一个子集映射。比方说， s e t = 2 , 4 , 6 , 8 , 10 , . . . ∞ set = {2,4,6,8,10,...\infty } set

【本文地址】

马尔科夫决策过程（MDP）五大元素

马尔科夫决策过程（MDP）五大元素

今日新闻

推荐新闻