Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > Java基础相关 >

深入浅出强化学习:原理入门 PDF 下载


分享到:
时间:2019-02-14 15:24来源:https://download.csdn.net/ 作者:转载  侵权举报
深入浅出强化学习:原理入门 PDF 下载
失效链接处理
深入浅出强化学习:原理入门  PDF 下载

转载自:https://download.csdn.net/download/h1142220273/10939039
 
本站整理下载:
版权归出版社和原作者所有,链接已删除,请购买正版
 
 
用户下载说明:
电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍:
http://product.dangdang.com/1486008397.html
  
相关截图:
 
资料简介:

《深入浅出强化学习:原理入门》用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。开篇从*基本的马尔科夫决策过程入手,将强化学习问题纳入到严谨的数学框架中,接着阐述了解决此类问题*基本的方法——动态规划方法,并从中总结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。基于这个思路,分别介绍了基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。*后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。

除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实例。因此,《深入浅出强化学习:原理入门》既适合零基础的人员入门学习、也适合相关科研人员作为研究参考。

 
资料目录:

1  绪论  1

1.1  这是一本什么书  1

1.2  强化学习可以解决什么问题  2

1.3  强化学习如何解决问题  4

1.4  强化学习算法分类及发展趋势  5

1.5  强化学习仿真环境构建  7

1.5.1  gym安装及简单的demo示例  8

1.5.2  深入剖析gym环境构建  10

1.6  本书主要内容及安排  12

第一篇  强化学习基础  17

2  马尔科夫决策过程  18

2.1  马尔科夫决策过程理论讲解  18

2.2  MDP中的概率学基础讲解  26

2.3  基于gym的MDP实例讲解  29

2.4  习题  34

3  基于模型的动态规划方法  36

3.1  基于模型的动态规划方法理论  36

3.2  动态规划中的数学基础讲解  47

3.2.1  线性方程组的迭代解法  47

3.2.2  压缩映射证明策略评估的收敛性  49

3.3  基于gym的编程实例  52

3.4  最优控制与强化学习比较  54

3.5  习题  56

第二篇  基于值函数的强化学习方法  57

4  基于蒙特卡罗的强化学习方法  58

4.1  基于蒙特卡罗方法的理论  58

4.2  统计学基础知识  67

4.3  基于Python的编程实例  71

4.4  习题  74

5  基于时间差分的强化学习方法  75

5.1  基于时间差分强化学习算法理论讲解  75

5.2  基于Python和gym的编程实例  83

5.3  习题  87

6  基于值函数逼近的强化学习方法  88

6.1  基于值函数逼近的理论讲解  88

6.2  DQN及其变种  94

6.2.1  DQN方法  94

6.2.2  Double DQN  100

6.2.3  优先回放(Prioritized Replay)  102

6.2.4  Dueling DQN  104

6.3  函数逼近方法  105

6.3.1  基于非参数的函数逼近  105

6.3.2  基于参数的函数逼近  111

6.3.3  卷积神经网络  117

6.4  习题  123

第三篇  基于直接策略搜索的强化学习方法  125

7  基于策略梯度的强化学习方法  126

7.1  基于策略梯度的强化学习方法理论讲解  126

7.2  基于gym和TensorFlow的策略梯度算法实现  134

7.2.1  安装Tensorflow  135

7.2.2  策略梯度算法理论基础  135

7.2.3  Softmax策略及其损失函数  136

7.2.4  基于TensorFlow的策略梯度算法实现  138

7.2.5  基于策略梯度算法的小车倒立摆问题  141

7.3  习题  141

8  基于置信域策略优化的强化学习方法  142

8.1  理论基础  143

8.2  TRPO中的数学知识  153

8.2.1  信息论  153

8.2.2  优化方法  155

8.3  习题  164

9  基于确定性策略搜索的强化学习方法  165

9.1  理论基础  165

9.2  习题  170

10  基于引导策略搜索的强化学习方法  171

10.1  理论基础  171

10.2  GPS中涉及的数学基础  178

10.2.1  监督相LBFGS优化方法  178

10.2.2  ADMM算法  179

10.2.3  KL散度与变分推理  183

10.3  习题  184

第四篇  强化学习研究及前沿  185

11  逆向强化学习  186

11.1  概述  186

11.2  基于最大边际的逆向强化学习  187

11.3  基于最大熵的逆向强化学习  194

11.4  习题  201

12  组合策略梯度和值函数方法  202

13  值迭代网络  207

13.1  为什么要提出值迭代网络  207

13.2  值迭代网络  210

14  基于模型的强化学习方法:PILCO及其扩展  214

14.1  概述  214

14.2  PILCO  216

14.3  滤波PILCO和探索PILCO  226

14.3.1  滤波PILCO算法  227

14.3.2  有向探索PILCO算法  230

14.4  深度PILCO  232

后记  235

参考文献  237

 


------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐