炼数成金 门户 培训 查看内容

强化学习

2020-6-23 13:31| 发布者: 仙豆| 查看: 28704| 评论: 0|原作者: 仙豆

快速报名入口
课程简介:
课程强调从零开始,动手操作;内容以代码落地为主,以理论讲解为根,以公式推导为辅。讲解强化学习的模型理论和代码实践,梳理强化学习的技术框架,从根本上解决如何使用模型、优化模型的问题;每次课中,首先阐述算法理论和少量公式推导,然后使用真实和模拟数据,进行数据挖掘、机器学习深度学习、强化学习的数据分析、特征选择、调参和结果比较。

课程目标:
通过课程学习,可以理解强化学习的思维方式和关键技术;了解强化学习在当前工业界的落地应用;能够根据数据分布选择合适的算法模型并书写代码,初步胜任使用Python进行强化学习等工作。

课程特点:
课程重视代码实践,使用讲师在工业界10余年的实际经历组织内容,进行强化学习模型的落地应用。虽然课程坚持推导公式,但更重视强化学习的原理与实操;将实际工作中遇到的行业应用和痛点做最直观切实的展示;重视算法模型的同时,更强调实际问题中应该如何模型选择、特征选择和调参。
讲授者在科学院做科研,同时在多家企业任职首席或顾问,有丰富的工业经验,能够保证听者尽快了解数据挖掘、机器学习、深度学习的本质和实践应用。

讲师介绍:
邹伟,睿客邦创始人、华东建筑设计研究总院研究员、山东交通学院客座教授、南昌航空大学双师型教师、中国软件行业协会专家委员、上海市计划生育科学研究所特聘专家、天津大学创业导师、中国医药教育协会老年运动与健康分会学术委员;领导睿客邦与全国二十多所高校、国企建立了AI联合实验室,完成50多个深度学习实践项目,广泛应用于医疗、交通、农业、气象、银行、电信等多个领域。

课程大纲:
第一章:强化学习概述
1.强化学习的定义和原理
2.智能体的组成
3.强化学习和其他机器学习的关系
4.强化学习的分类
5.强化学习的研究方法
6.强化学习的重点概念

第二章:马尔可夫决策过程
1.马尔可夫性
2.马尔可夫过程
3.马尔可夫决策过程
4.贝尔曼期望方程
5.贝尔曼最优方程
6.最优策略

第三章:动态规划
1.动态规划基本思想
2.策略评估
3.策略改进
4.策略迭代算法
5.值迭代算法
代码和案例实践:网格世界寻宝
6.网格世界环境描述
7.策略迭代算法运行流程
8.值迭代算法运行流程
9.核心代码演示
10.算法小结

第四章:蒙特卡罗
1.蒙特卡罗核心思想
2.蒙特卡罗评估
3.增量式方法
4.蒙特卡罗控制
5.在线策略/离线策略
6.在线策略蒙特卡罗算法
7.重要性采样离线策略蒙特卡罗算法
8.加权重要性采样离线策略蒙特卡罗算法
代码和案例实践: “十点半”游戏
9.游戏介绍及环境描述
10.在线策略蒙特卡罗算法运行流程
11.加权重要性采样离线策略蒙特卡罗算法运行流程
12.核心代码演示
13.算法小结

第五章:时序差分
1.时序差分简介、TD目标值 / TD 误差
2.DP/MC/TD对比
3.在线策略TD:Sarsa算法
4.离线策略TD:Q-learning算法
代码和案例实践:带陷阱的网格世界寻宝
5.环境描述
6.Sarsa算法运行流程
7.Q-learning算法运行流程
8.核心代码演示
9.算法小结

第六章:资格迹
1.前向视角/后向视角
2.多步TD
3.前向TD(λ)算法
4.后向TD(λ)算法
5.前向Sarsa(λ)算法
6.后向Sarsa(λ)算法
7.前向Watkins’s  Q(λ)算法
8.后向Watkins’s  Q(λ)算法
代码和案例实践:风格子世界
9.环境描述
10.后向Sarsa (λ) 算法运行流程
11.后向Watkins’s  Q(λ)算法运行流程
12.核心代码演示
13.算法小结

第七章:值函数逼近
1.表格型强化学习/函数近似型强化学习
2.线性逼近/非线性逼近
3.增量法
4.值函数逼近-Sarsa算法
5.批量法
6.值函数逼近-Q-learning算法
7.人工神经网络(卷积、池化、全连接)
8.DQN方法
9.Double DQN方法
10.Dueling DQN方法
代码和案例实践:飞翔的小鸟
11.游戏简介及环境描述
12.DQN算法运行流程
13.核心代码演示
14.算法小结

第八章:随机策略梯度
1.随机策略梯度简介
2.策略梯度优缺点
3.策略梯度方法分类
4.随机策略梯度定理
5.REINFORCE方法
6.带基线的REINFORCE方法
代码和案例实践:小车上山
7.游戏简介及环境描述
8.REINFORCE算法运行流程
9.核心代码演示
10.算法小结

第九章: Actor-Critic及变种
1.AC与带基线 REINFORCE的不同
2.在线策略AC方法
3.离线策略AC方法
4.兼容性近似函数定理
5.A2C方法
6.异步方法简介及核心思想
7.异步 Q-learning 方法
8.异步 Sarsa 方法
9.异步 n步 Q-learning方法
10.A3C方法
代码和案例实践:小车倒立摆
11.游戏简介及环境描述
12.AC算法运行流程
13.核心代码演示
14.算法小结
代码和案例实践:钟摆
15.游戏简介及环境描述
16.A3C算法运行流程
17.核心代码演示
18.算法小结

第十章:确定性策略梯度
1.确定性策略
2.随机策略梯度的缺陷
3.确定性策略梯度定理
4.在线策略确定性AC方法
5.离线策略确定性AC方法
6.兼容性近似函数定理
7.DDPG方法
代码和案例实践:钟摆
8.游戏简介及环境描述
9.DDPG算法运行流程
10.核心代码演示
11.算法小结

第十一章:学习与规划
12.有模型方法和无模型方法
13.模型拟合
14.Dyna框架
15.Dyna-Q算法
16.Dyna-Q+
17.优先级扫描的Dyna-Q
18.Dyna-2算法
代码和案例实践:迷宫寻宝
19.游戏简介及环境描述
20.Dyna-Q算法运行流程
21.核心代码演示
22.算法小结

第十二章:探索与利用
1.探索-利用困境
2.多臂赌博机问题
3.朴素探索
4.乐观初始值估计
5.置信区间上界
6.概率匹配
7.信息价值
代码和案例实践:多臂赌博机游戏
8.游戏简介及环境描述
9.算法运行流程(ε-贪心算法 、 UCB1 、汤普森采样)
10.核心代码演示
11.算法小结

第十三章:博弈强化学习
12.博弈及博弈树
13.极大极小搜索
14.Alpha-Beta 搜 索
15.蒙特卡罗树搜索
16.AlphaGo基本原理
17.AlphaGo神经网络
18.AlphaGo蒙特卡罗树搜索
19.AlphaGo的整体思路
20.AlphaGo Zero下棋原理
21.AlphaGo Zero的网络结构
22.AlphaGo Zero的蒙特卡罗树搜索
23.AlphaGo Zero总结
24.AlphaZero
代码和案例实践:五子棋
25.游戏简介及环境描述
26.算法运行流程(MCTS算法和 MCTS+神经网络算法)
27.核心代码演示
28.算法小结

授课时间:
课程将于2020年7月25日开课,课程持续时间大约为15周

新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取100元固定收费+300元暂存学费,学习圆满则全额奖励返还给学员!

本门课程本来打算完全免费,某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动,为了防止一些朋友在学习途中半途而废,浪费了讲师的付出,为此我们计划模仿某些健身课程,使用“逆向收费”的方法。
在报名时每位报名者收取400元,其中100元为固定 收费,另外300是暂存学费,即如果学员能完成全部课程要求,包括完成全部的书面和互动作业,则300元全款退回。如果学员未能坚持到完全所有的学习计划任务,则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力!

授课方式:
1、 学习方式:老师发布教学资料、教材,幻灯片和视频,学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。
2、 学习作业:老师每周布置书面及互动作业,学员需按时按质完成作业。
3、 老师辅导:根据作业批改中发现的问题,针对性给予辅导,帮助大家掌握知识。
4、 结业测验:通过测验,完成学业。

您是否对此课程还有疑问,那么请 点击进入 FAQ,您的问题将基本得到解答
全国统一咨询热线 4008-010-006
课程现开始接受报名,报名方式
网上报名 请点击:强化学习
咨询Email :edu01@dataguru.cnedu02@dataguru.cn
课程入门讨论咨询群:303917420(群内有培训公开课视频供大家免费观看)
咨询QQ: 2222010006 (上班时间在线)

技术热点、 行业资讯,培训课程信息,尽在炼数成金官方微信,低成本传递高端知识!技术成就梦想!欢迎关注!
打开微信,使用扫一扫功能,即刻关注炼数成金官方微信账户,不容错过的精彩,期待您的体验!!!

快速报名入口
上一篇:工程设计下一篇:邹伟老师-讲师简介

即将开课

 

GMT+8, 2024-3-28 20:38 , Processed in 0.440999 second(s), 35 queries .