强化学习基础总结(三)
2017-06-27 17:27
232 查看
强化学习基础总结(三)
@(Machine Learning)覆盖以下几个主题:
Markov过程
Markov奖励过程
Markov决策过程
MDPs扩展
MDP简介
MDP是用于正式描述强化学习模型中的环境(environment)。这里的环境是完全可观测的。
几乎所有的RL问题都可以被定义为MDP模型。
马尔可夫性
如前面文章所说,马尔可夫性就是:给定现在,将来与过去无关。
数学语言描述就是:
P[St+1|St]=P[St+1|S1,S2,...,St]
状态转换矩阵
状态转换矩阵元素是状态转换概率。
此概率的数学表达式是:
Pss′=P[St+1=s′|St=s]
其中,s′是状态s的下一个状态。
也即从s到s’的概率。
状态转换矩阵的数学表达式就是:
P=⎡⎣⎢⎢⎢⎢P11P21....Pn1P12P22Pn2.........P1nP2nPnn⎤⎦⎥⎥⎥⎥
从一个状态转向其他状态的概率之和为1,在矩阵上的体现就是:行和为1.
马尔可夫过程(马尔可夫链,MC)
马尔可夫过程的文字定义就是:无记忆随机过程。比如一个随机的状态序列,每一个状态都具有马尔可夫性,则这样的序列就可称之为马尔可夫过程。
形式化定义为:
马尔可夫过程,是一个二元组 (S,P)。
其中:
S是一个有限状态集合
P是一个状态转换矩阵,且Pss′=P[St+1=s′|St=s]
马尔可夫奖励过程(MRP)
一个标准的马尔可夫奖励过程就是上面的马尔可夫链+奖励值。说到奖励值,需要关注到的是奖励是针对转换动作而言的。
形式化定义是:
MRP是一个四元组: (S,P,R,γ).
其中:
S是有限状态集合
P是状态转换矩阵
R是奖励函数,且Rs=E[Rt+1|St=s]
γ是折扣值,且γ∈[0,1]
关于奖励函数的定义,可以这样理解:当前为t时刻,那么t时刻做的决策到t+1时刻时的状态,这个转换的价值是Rt+1,由此也可以看出这是奖励的延迟效果。
Return
这个不知道翻译。一般用Gt表示从t时刻开始到未来的计算折扣的总的奖赏值。考虑到问题都建立在马尔可夫性质上,思考问题的时间起点都是当前这个时刻到未来。可能是有限步,也可能是无穷步。
形式化定义是:
Gt=Rt+1+γRt+2+...=∑k=0∞γkRt+k+1
思考一个问题:为什么要对总的奖赏打一个折扣呢?
关于这个,个人觉得类比资金的时间价值会很容易理解。
现在的100块钱和一年后的100块钱,在价值上是不一样的。基础的,可以拿钱生出利息,这就是钱的时间价值。
具体到RL问题中来,主要有以下几个优势:
数学上,上面的公式方便累加
避免在循环Markov过程中的奖励总值无限大
未来的不确定性可能并未完全被表示,所以当前的估计要打折扣
具体到金融领域的RL问题,考虑资金的时间价值
人性中对即时回报的偏爱
不排除某些场景下,γ=1
价值函数(Value Function)
形式化表示如下:v(s)=E[Gt|St=s]
即:从状态s开始往未来看,价值函数是奖赏总值的期望。
也就是说从状态s往未来走,有不同的路径,且不同的路径有不一样的长期价值。
进一步推导可得:
vπ(s)=Eπ[Gt|St=s]=Eπ[Rt+1+γGt+1|St=s]=∑aπ(a|s)∑s′,ap(s′,r|s,a)[r+γvπ(s′)],∀s∈S
这样,就可以用递推的方法计算状态的价值函数了。
Get 更多机器学习相关,可关注:
相关文章推荐
- 强化学习基础学习系列之model-free/planning/model-base/dyna方法总结
- 信息安全系统设计基础第十一周学习总结
- 信息安全系统设计基础第十一周学习总结
- 20135223何伟钦—信息安全系统设计基础第十一周学习总结
- Swing超基础学习总结——1、简单的登录窗口样式
- 20135328陈都信息安全系统设计基础第十二周学习总结
- Java基础学习总结(62)——Java中的流和Socket
- 2014.10.20--Java基础课第五天学习总结
- 机器学习、深度学习、强化学习参数调节方法与总结
- JavaScript学习总结(1)——JavaScript基础
- Java基础学习总结(10)—— Cookie/Session机制详解
- 20145310《信息安全系统设计基础》第三周学习总结
- Python 学习笔记-基础总结
- Java基础知识强化之集合框架笔记72:集合特点和数据结构总结
- java基础学习总结——public,private,protected,和默认的区别
- Java基础17:设计模式学习总结
- 机器学习算法基础概念学习总结
- 【SQLServer】T-SQL查询学习总结(2)[基础知识]
- 20135315-信息安全系统设计基础第五周学习总结
- 信息安全系统设计基础第四周学习总结