您的位置:首页 > 其它

强化学习(Reinforcement Learning)的方法分类

2017-08-01 20:27 435 查看

强化学习(Reinforcement Learning)的方法分类

从Andrew Ng的cs229公开课开始接触强化学习已经有一段时间了,但对于强化学习中的各种方法一直很混乱,有必要简单归类整理一下,涉及的强化学习方法有:

Value Iteration 值迭代

Policy Iteration 策略迭代

Monte Carlo Learing 蒙特卡洛学习

Q-learning

DQN(Deep Q-learning Network)

Sarsa

Policy Gradient

Actor-Critic

DDPG(Deep Deterministic Policy Gradient)

A3C(Asynchronous Advantage Actor-Critic)

所有的这些强化学习方法都是以马尔可夫决策过程(MDPs)为基础的



这些方法的具体总结以后有时间再做。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  RL
相关文章推荐