您的位置:首页 > 其它

强化学习入门教程(附学习大纲)

2018-01-25 00:00 381 查看

零基础,想要入门或从事强化学习研究的同学有福了!CSDN学院特邀资深讲师为大家分享《强化学习深入浅出完全教程》从零基础开始入门强化学习,在教学的过程中,配合   具体案例、代码演示 ,让大家可以  一目了然,快速上手 。

主讲老师

郭宪  南开大学计算机与控制工程学院博士后,AI 教研室团队成员 2009年毕业于华中科技大学机械设计制造及自动化专业,同年保送到中国科学院沈阳自动化研究所进行硕博连读,主攻机器人动力学建模与控制,于2016年1月获得工学博士学位,期间在国内外知名杂志和会议发表论文数10篇。2016年以来, 郭博士主攻方向为机器人智能感知和智能决策,目前主持两项国家级课题,内容涉及深度学习,深度强化学习等智能算法在机器人领域中的应用。
课程简介

深入浅出地介绍强化学习的概念,算法发展历史,分类,及发展趋势。在教学的过程中,配合具体案例、代码演示,让学员可以一目了然,快速上手。
学习收益

通过本课程的学习,学员将会收获:1. 帮助学员系统性的掌握强化学习知识,并运用到具体工作中。2. 实践与理论结合,培养学员在强化学习领域深入思考及实践能力
开课时间

2月6日起,每周二、四20:00 - 22:00在线直播直播后提供录制回放视频,可在线反复观看,有效期2年

课程大纲

第一课:  强化学习概述1. 强化学习要解决的问题
2. 强化学习的发展历史
3. 强化学习方法的分类
4. 强化学习方法的发展趋势
第二课:  马尔科夫决策过程       
1. 基本概念,马尔科夫性、马尔科夫过程、马尔科夫决策过程2. MDP基本元素:策略、回报、值函数、状态行为值函数3. 贝尔曼方程、最优策略。4. 强化学习的数学形式化5. Python介绍,及简单的代码演示。第三课: 基于模型的动态规划方法
1. 动态规划概念介绍2. 策略评估过程介绍
3. 策略改进方法介绍
4. 策略迭代和值迭代
5. 值迭代与最优控制介绍
6. 基于 python 的动态规划方法演示 第四课:  蒙特卡罗方法
1. 蒙特卡罗策略评估方法2. 蒙特卡罗策略改进方法3. 基于蒙特卡罗的强化学习方法4. 同策略和异策略强化学习5. 重要性采样6. 基于 python 的蒙特卡罗强化学习方法演示第五课: 时间差分方法
1. DP,MC 和 TD 方法比较
2. MC 和 TD 方法偏差与方差平衡
3. 同策略 TD 方法:Sarsa 方法
4. 异策略 TD 方法:Qlearning 方法
5. N 步预测及 的前向和后向观点
6. 基于 python 的 TD 方法实现
第六课:  Gym环境构建及强化学习算 法实现1. Gym环境的安装和测试
2. Gym环境创建的关键函数讲解
3. 创建自己的Gym环境讲解
4. 基于自己创建的Gym环境实现 MC,TD等算法 
第七课: 值函数逼近方法1. 值函数的参数化表示
2. 值函数的估计过程
3. 值函数的优化方法,随机梯度下降和半梯度下降法
4. 值函数的线性逼近
第八课: DQN方法及其变种
1. DQN 方法介绍
2. DQN 变种 Double DQN, Prioritized Replay, Dueling Network
 
第九课: 策略梯度方法
1. 策略梯度方法介绍
2. 似然率策略梯度推导及重要性采样视角推导
3. 似然率策略梯度的直观理解
4. 常见的策略表示
5. 常见的减小方差的方法:引入基函数法,修改估计值函数法

加入课程群



点击“阅读全文”立即查看课程详情
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: