失效链接处理 |
spark全栈数据分析 PDF 下载
本站整理下载:
版权归出版社和原作者所有,链接已删除,请购买正版
用户下载说明:
电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍:
http://product.dangdang.com/26183154.html
相关截图:
资料简介: 本书介绍了作者提出的敏捷数据科学的方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科学研究的实践经验。全书基于Spark做全栈数据分析,书中展示了工业界一些常见工具的使用,包括从前端显示到后端处理的各个环节,手把手帮助数据科学家快速将理论转化为真正面向用户的应用程序,从而让读者在利用数据创造真正价值的同时,也能不断完善自己的研究。本书适合初学者阅读,数据科学家、工程师、分析师都能在本书中有所收获。 资料目录: 目录 前言 .................................................................................................. xiv 第Ⅰ部分 准备工作 第1章 理论 ..........................................................................................3 导论 .............................................................................................................................3 定义 .............................................................................................................................5 方法学 ................................................................................................................5 敏捷数据科学宣言 ............................................................................................6 瀑布模型的问题 .......................................................................................................10 研究与应用开发 ..............................................................................................11 敏捷软件开发的问题 ...............................................................................................14 最终质量:偿还技术债 ....................................................................................14 瀑布模型的拉力 ..............................................................................................15 数据科学过程 ...........................................................................................................16 设置预期 ..........................................................................................................17 数据科学团队的角色 ......................................................................................18 认清机遇与挑战 ..............................................................................................19 适应变化 ..........................................................................................................21 过程中的注意事项 ...................................................................................................23 代码审核与结对编程 ......................................................................................25 敏捷开发的环境:提高生产效率 ....................................................................25 用大幅打印实现想法 ......................................................................................27 第2章 敏捷工具 ................................................................................29 可伸缩性=易用性 ...................................................................................................30 敏捷数据科学之数据处理 .......................................................................................30 搭建本地环境 ...........................................................................................................32 配置要求 ..........................................................................................................33 配置Vagrant .....................................................................................................33 下载数据 ..........................................................................................................33 搭建EC2环境 ............................................................................................................34 下载数据 ..........................................................................................................38 下载并运行代码 .......................................................................................................38 下载代码 ..........................................................................................................38 运行代码 ..........................................................................................................38 Jupyter笔记本 ...................................................................................................39 工具集概览 ...............................................................................................................39 敏捷开发工具栈的要求 ..................................................................................39 Python 3 ...........................................................................................................39 使用JSON行和Parquet序列化事件 .................................................................42 收集数据 ..........................................................................................................45 使用Spark进行数据处理 .................................................................................45 使用MongoDB发布数据 .................................................................................48 使用Elasticsearch搜索数据 .............................................................................50 使用Apache Kafka分发流数据 .......................................................................54 使用PySpark Streaming处理流数据 ...............................................................57 使用scikit-learn与Spark MLlib进行机器学习 ................................................58 使用 Apache Airflow(孵化项目)进行调度 ....................................................59 反思我们的工作流程 ......................................................................................70 轻量级网络应用 ..............................................................................................70 展示数据 ..........................................................................................................73 本章小结 ...................................................................................................................75 第3章 数据 ........................................................................................77 飞行航班数据 ...........................................................................................................77 航班准点情况数据 ..........................................................................................78 OpenFlights数据库 ...........................................................................................79 天气数据 ...................................................................................................................80 敏捷数据科学中的数据处理 ...................................................................................81 结构化数据vs.半结构化数据 ..........................................................................81 SQL vs. NoSQL .........................................................................................................82 SQL ...................................................................................................................83 NoSQL与数据流编程 ......................................................................................83 Spark: SQL NoSQL ......................................................................................84 NoSQL中的表结构 ..........................................................................................84 数据序列化 ......................................................................................................85 动态结构表的特征提取与呈现 ......................................................................85 本章小结 ...................................................................................................................86 第Ⅱ部分 攀登金字塔 第4章 记录收集与展示 ......................................................................89 整体使用 ...................................................................................................................90 航班数据收集与序列化 ...........................................................................................91 航班记录处理与发布 ...............................................................................................94 把航班记录发布到MongoDB .................. |