Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > Java基础相关 >

PySpark机器学习、自然语言处理与推荐系统 PDF 下载


分享到:
时间:2023-11-06 09:48来源:http://www.java1234.com 作者:转载  侵权举报
构建一系列有监督和无监督机器学习算法 使用Spark MLlib库实现机器学习算法 使用Spark MLlib库开发推荐系统 处理与特征工程、分类平衡、偏差和方差以及交叉验证有关的问题,以便
失效链接处理
PySpark机器学习、自然语言处理与推荐系统 PDF 下载



下载地址:
版权归出版社和原作者所有,链接已删除,请购买正版

用户下载说明:

电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍:
https://product.dangdang.com/28503344.html
 

相关截图:





资料简介:


构建一系列有监督和无监督机器学习算法

使用Spark MLlib库实现机器学习算法

使用Spark MLlib库开发推荐系统

处理与特征工程、分类平衡、偏差和方差以及交叉验证有关的问题,以便构建*的拟合模型


资料目录:

第1章  数据革命   1
1.1  数据生成   1
1.2  Spark   2
1.2.1  Spark Core   3
1.2.2  Spark组件   4
1.3  设置环境   5
1.3.1  Windows   5
1.3.2  iOS   6
1.4  小结   7
第2章  机器学习简介   9
2.1  有监督机器学习   10
2.2  无监督机器学习   12
2.3  半监督机器学习   14
2.4  强化学习   14
2.5  小结   15
第3章  数据处理   17
3.1  加载和读取数据   17
3.2  添加一个新列   20
3.3  筛选数据   21
3.3.1  条件1   21
3.3.2  条件2   22
3.4  列中的非重复值   23
3.5  数据分组   23
3.6  聚合   25
3.7  用户自定义函数(UDF)   26
3.7.1  传统的Python函数   26
3.7.2  使用lambda函数   27
3.7.3  Pandas UDF(向量化的UDF)   28
3.7.4  Pandas UDF(多列)   29
3.8  去掉重复值   29
3.9  删除列   30
3.10  写入数据   30
3.10.1  csv   31
3.10.2  嵌套结构   31
3.11  小结   31
第4章  线性回归   33
4.1  变量   33
4.2  理论   34
4.3  说明   41
4.4  评估   42
4.5  代码   43
4.5.1  数据信息   43
4.5.2  步骤1:创建
SparkSession对象   44
4.5.3  步骤2:读取数据集   44
4.5.4  步骤3:探究式数据分析   44
4.5.5  步骤4:特征工程化   45
4.5.6  步骤5:划分数据集   47
4.5.7  步骤6:构建和训练线性回归模型   47
4.5.8  步骤7:在测试数据上评估线性回归模型   48
4.6  小结   48
第5章  逻辑回归   49
5.1  概率   49
5.1.1  使用线性回归   50
5.1.2  使用Logit   53
5.2  截距(回归系数)   54
5.3  虚变量   55
5.4  模型评估   56
5.4.1  正确的正面预测   56
5.4.2  正确的负面预测   57
5.4.3  错误的正面预测   57
5.4.4  错误的负面预测   57
5.4.5  准确率   57
5.4.6  召回率   57
5.4.7  精度   58
5.4.8  F1分数   58
5.4.9  截断/阈值概率   58
5.4.10  ROC曲线   58
5.5  逻辑回归代码   59
5.5.1  数据信息   59
5.5.2  步骤1:创建Spark会话对象   60
5.5.3  步骤2:读取数据集   60
5.5.4  步骤3:探究式数据分析   60
5.5.5  步骤4:特征工程   63
5.5.6  步骤5:划分数据集   68
5.5.7  步骤6:构建和训练逻辑回归模型   69
5.5.8  训练结果   69
5.5.9  步骤7:在测试数据上评估线性回归模型   70
5.5.10  混淆矩阵   71
5.6  小结   72
第6章  随机森林   73
6.1  决策树   73
6.1.1  熵   75
6.1.2  信息增益   76
6.2  随机森林   78
6.3  代码   80
6.3.1  数据信息   80
6.3.2  步骤1:创建SparkSession对象   81
6.3.3  步骤2:读取数据集   81
6.3.4  步骤3:探究式数据分析   81
6.3.5  步骤4:特征工程   85
6.3.6  步骤5:划分数据集   86
6.3.7  步骤6:构建和训练随机森林模型   87
6.3.8  步骤7:基于测试数据进行评估   87
6.3.9  准确率   89
6.3.10  精度   89
6.3.11  AUC曲线下的面积   89
6.3.12  步骤8:保存模型   90
6.4  小结   90
第7章  推荐系统   91
7.1  推荐   91
7.1.1  基于流行度的RS   92
7.1.2  基于内容的RS   93
7.1.3  基于协同过滤的RS   95
7.1.4  混合推荐系统   103
7.2  代码   104
7.2.1  数据信息   105
7.2.2  步骤1:创建SparkSession对象   105
7.2.3  步骤2:读取数据集   105
7.2.4  步骤3:探究式数据分析   105
7.2.5  步骤4:特征工程   108
7.2.6  步骤5:划分数据集   109
7.2.7  步骤6:构建和训练推荐系统模型   110
7.2.8  步骤7:基于测试数据进行预测和评估   110
7.2.9  步骤8:推荐活动用户可能会喜欢的排名靠前的电影   111
7.3  小结   114
第8章  聚类   115
8.1  初识聚类   115
8.2  用途   117
8.2.1  K-均值   117
8.2.2  层次聚类   127
8.3  代码   131
8.3.1  数据信息   131
8.3.2  步骤1:创建SparkSession对象   131
8.3.3  步骤2:读取数据集   131
8.3.4  步骤3:探究式数据分析   131
8.3.5  步骤4:特征工程   133
8.3.6  步骤5:构建K均值聚类模型   133
8.3.7  步骤6:聚类的可视化   136
8.4  小结   137
第9章  自然语言处理   139
9.1  引言   139
9.2  NLP涉及的处理步骤   139
9.3  语料   140
9.4  标记化   140
9.5  移除停用词   141
9.6  词袋   142
9.7  计数向量器   143
9.8  TF-IDF   144
9.9  使用机器学习进行文本分类   145
9.10  序列嵌入   151
9.11  嵌入   151
9.12  小结   160



------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐