失效链接处理 |
全栈数据之门 PDF 下载
转载自:https://www.jb51.net/books/617634.html
本站整理下载:
版权归出版社和原作者所有,链接已删除,请购买正版
用户下载说明:
电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍:
http://product.dangdang.com/24220962.html
相关截图:
资料简介:
本书以数据分析领域*热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习,既有常用算法KNN与Kmeans的应用,决策树与*森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,使用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。
资料目录:
前言 自强不息,厚德载物 / XIX
0x1 Linux,自由之光 / 001 0x10 Linux,你是我的眼 / 001 0x11 Linux基础,从零开始 / 003 01 Linux之门 / 003 02 文件操作 / 004 03 权限管理 / 006 04 软件安装 / 008 05 实战经验 / 010 0x12 Sed与 Grep,文本处理 / 010 01 文本工具 / 010 02 grep的使用 / 011 03 grep家族 / 013 04 sed的使用 / 014 05 综合案例 / 016 0x13 数据工程,必备 Shell / 018 01 Shell分析 / 018 02 文件探索 / 019 03 内容探索 / 020 04 交差并补 / 020 05 其他常用的命令 / 021 06 批量操作 / 022 07 结语 / 025 0x14 Shell 快捷键,Emacs 之门 / 025 01 提高效率 / 025 02 光标移动 / 026 03 文本编辑 / 027 04 命令搜索 / 028 05 Emacs 入门 / 029 06 Emacs 思维 / 031 0x15 缘起Linux,一入Mac 误终身 / 032 01 开源生万物 / 032 02 有钱就换Mac / 032 03 程序员需求 / 033 04 非程序员需求 / 034 05 一入Mac 误终身 / 035 0x16 大成就者,集群安装 / 036 01 离线安装 / 036 02 Host 与SSH 配置 / 037 03 sudo 与JDK 环境 / 039 04 准备Hadoop 包 / 040 05 开启HTTP 与配置源 / 041 06 安装ambari-server / 041 07 后续服务安装 / 042 08 结语 / 044 0x2 Python,道法自然 / 045 0x20 Python,灵犀一指 / 045 0x21 Python 基础,兴趣为王 / 047 01 第一语言 / 047 02 数据结构 / 047 03 文件读写 / 049 04 使用模块 / 050 05 函数式编程 / 052 06 一道面试题 / 053 07 兴趣驱动 / 055 0x22 喜新厌旧,2迁移 3 / 056 01 新旧交替 / 056 02 基础变化 / 057 03 编码问题 / 058 04 其他变化 / 058 05 2to3脚本 / 060 06 PySpark配置 / 061 07 喜新厌旧 / 062 0x23 Anaconda,IPython / 062 01 Anaconda / 062 02 安装与配置 / 063 03 pip与源 / 064 04 IPython与 Jupyter / 065 05 结语 / 067 0x24 美不胜收,Python工具 / 067 01 缘起 / 067 02 调试与开发 / 068 03 排版与格式化 / 070 04 辅助工具 / 072 05 实用推荐 / 074 0x25 numpy基础,线性代数 / 075 01 numpy的使用 / 075 02 索引与切片 / 076 03 变形与统计 / 078 04 矩阵运算 / 080 05 实用方法 / 083 06 结语 / 085 0x26 numpy实战,PCA降维 / 085 01 PCA介绍 / 085 02 数据均值化 / 086 03 协方差矩阵 / 087 04 特征值与向量 / 088 05 数据映射降维 / 089 06 sklearn 实现 / 090 0x3 大数据,其大无外 / 093 0x30 太大数据,极生两仪 / 093 0x31 神象住世,Hadoop / 095 01 Hadoop / 095 02 HDFS / 096 03 角色与管理 / 097 04 文件操作 / 098 05 结语 / 100 0x32 分治之美,MapReduce / 100 01 map 与reduce 函数 / 100 02 分而治之 / 102 03 Hello,World / 103 04 Streaming 接口 / 105 0x33 Hive 基础,蜂巢与仓库 / 106 01 引言 / 106 02 Hive 接口 / 107 03 分区建表 / 108 04 分区机制 / 110 05 数据导入/ 导出 / 111 06 Hive-QL / 112 07 结语 / 114 0x34 Hive 深入,实战经验 / 115 01 排序与分布式 / 115 02 多表插入与mapjoin / 116 03 加载map-reduce 脚本 / 117 04 使用第三方UDF / 119 05 实战经验 / 120 06 生成唯一ID / 121 0x35 HBase库,实时业务 / 122 01 理论基础 / 122 02 Shell操作 / 123 03 关联 Hive表 / 126 04 数据导入 / 128 05 实用经验 / 130 0x36 SQL与 NoSQL,Sqoop为媒 / 130 01 SQL与 NOSQL / 130 02 从 MySQL导入 HDFS / 131 03 增量导入 / 134 04 映射到 Hive / 135 05 导入 Hive表 / 136 06 从 HDFS导出到 MySQL / 137 07 从 Hive导出到 MySQL / 138 0x4 数据分析,见微知著 / 141 0x40 大数据分析,鲁班为祖师 / 141 0x41 SQL技能,必备 MySQL / 143 01 SQL工具 / 143 02 基础操作 / 144 03 查询套路 / 145 04 join查询 / 146 05 union与 exists / 149 06 实战经验 / 151 0x42 快刀 awk,斩乱数据 / 152 01 快刀 / 152 02 一二三要点 / 152 03 一个示例 / 154 04 应用与统计 / 154 05 斩乱麻 / 156 0x43 Pandas,数据之框 / 157 01 数据为框 / 157 02 加载数据 / 158 03 行列索引 / 159 04 行列操作 / 161 05 合并聚合 / 163 06 迭代数据 / 164 07 结语 / 165 0x44 Zeppelin,一统江湖 / 166 01 心潮澎湃 / 166 02 基本使用 / 168 03 SQL 与可视化 / 169 04 安装Zeppelin / 172 05 配置Zeppelin / 173 06 数据安全 / 174 07 使用心得 / 176 0x45 数据分组,聚合窗口 / 177 01 MySQL 聚合 / 177 02 Spark 聚合 / 178 03 非聚合字段 / 179 04 Hive 实现 / 180 05 group_concat / 181 06 Hive 窗口函数 / 183 07 DataFrame 窗口 / 184 08 结语 / 185 0x46 全栈分析,六层内功 / 186 01 引言 / 186 02 MySQL 版本 / 186 03 awk 版本 / 187 04 Python 版本 / 188 05 Hive 版本 / 189 06 map-reduce 版本 / 190 07 Spark 版本 / 190 08 结语 / 191 0x5 机器学习,人类失控 / 193 0x50 机器学习,琅琊论断 / 193 0x51 酸酸甜甜,Orange / 195 01 可视化学习 / 195 02 数据探索 / 196 03 模型与评估 / 199 04 组件介绍 / 200 05 与 Python进行整合 / 202 06 结语 / 204 0x52 sklearn,机器学习 / 205 01 sklearn介绍 / 205 02 数据预处理 / 206 03 建模与预测 / 207 04 模型评估 / 209 05 模型持久化 / 210 06 三个层次 / 210 0x53 特征转换,量纲伸缩 / 211 01 特征工程 / 211 02 独热编码 / 212 03 sklearn示例 / 213 04 标准化与归一化 / 215 05 sklearn与 Spark实现 / 216 06 结语 / 219 0x54 描述统计,基础指标 / 220 01 描述性统计 / 220 02 Pandas实现 / 222 03 方差与协方差 / 223 04 Spark-RDD实现 / 224 05 DataFrame实现 / 226 06 Spark-SQL实现 / 227 07 结语 / 227 0x55 模型评估,交叉验证 / 228 01 测试与训练 / 228 02 评价指标 / 229 03 交叉验证 / 231 04 验证数据 / 232 05 OOB 数据 / 233 0x56 文本特征,词袋模型 / 234 01 自然语言 / 234 02 中文分词 / 235 03 词袋模型 / 236 04 词频统计 / 237 05 TF-IDF / 238 06 结语 / 239 0x6 算法预测,占天卜地 / 241 0x60 命由己做,福自己求 / 241 0x61 近朱者赤,相亲kNN / 243 01 朴素的思想 / 243 02 算法介绍 / 243 03 分类与回归 / 244 04 k 与半径 / 245 05 优化计算 / 246 06 实例应用 / 247 0x62 物以类聚,Kmeans / 248 01 算法描述 / 248 02 建立模型 / 249 03 理解模型 / 251 04 距离与相似性 / 252 05 降维与可视化 / 253 06 无监督学习 / 255 0x63 很傻很天真,朴素贝叶斯 / 257 01 朴素思想 / 257 02 概率公式 / 257 03 三种实现 / 258 04 sklearn 示例 / 260 05 朴素却不傻 / 262 0x64 菩提之树,决策姻缘 / 263 01 缘起 / 263 02 Orange演示 / 264 03 scikit-learn模拟 / 266 04 熵与基尼指数 / 267 05 决策过程分析 / 268 06 Spark模拟 / 270 07 结语 / 271 0x65 随机之美,随机森林 / 271 01 树与森林 / 271 02 处处随机 / 273 03 sklearn示例 / 274 04 MLlib示例 / 275 05 特点与应用 / 276 0x66 自编码器,深度之门 / 277 01 深度学习 / 277 02 特征学习 / 278 03 自动编码器 / 280 04 Keras代码 / 282 05 抗噪编码器 / 283 0x7 Spark,唯快不破 / 285 0x70 人生苦短,快用 Spark / 285 0x71 PySpark之门,强者联盟 / 287 01 全栈框架 / 287 02 环境搭建 / 288 03 分布式部署 / 289 04 示例分析 / 290 05 两类算子 / 292 06 map与 reduce / 293 07 AMPLab的野心 / 294 0x72 RDD 算子,计算之魂 / 295 01 算子之道 / 295 02 获取数据 / 296 03 过滤与排序 / 297 04 聚合数据 / 298 05 join 连接 / 299 06 union 与zip / 300 07 读写文件 / 301 08 结语 / 303 0x73 分布式SQL,蝶恋飞舞 / 304 01 SQL 工具 / 304 02 命令行CLI / 304 03 读Hive 数据 / 305 04 将结果写入Hive / 306 05 读写MySQL 数据 / 307 06 读写三种文件 / 308 0x74 DataFrame,三角之恋 / 310 01 DataFrame / 310 02 生成数据框 / 311 03 合并与join / 313 04 select 操作 / 314 05 SQL 操作 / 315 06 自定义UDF / 316 07 三角之恋 / 318 0x75 神器之父,Scala 入世 / 319 01 Spark 与Scala / 319 02 Scala REPL / 320 03 编译Scala / 321 04 sbt 编译 / 322 05 示例分析 / 323 06 编译提交 / 325 0x76 机器之心,ML 套路 / 326 01 城市套路深 / 326 02 算法与特征工程 / 327 03 管道工作流 / 328 04 OneHotEncoder示例 / 329 05 ML回归实战 / 331 06 特征处理与算法 / 332 07 拟合与评估 / 334 0x8 数据科学,全栈智慧 / 337 0x80 才高八斗,共分天下 / 337 0x81 自学数据,神蟒领舞 / 339 01 机器学习 / 339 02 语言领域 / 339 03 Python数据生态 / 340 04 相关资料 / 341 05 书籍推荐 / 342 06 性感的职业 / 343 0x82 数据科学,七大技能 / 343 01 七大技能 / 343 02 SQL与 NoSQL技能 / 344 03 Linux工具集 / 344 04 Python或者 R语言生态 / 345 05 Hadoop与 Spark生态 / 345 06 概率、统计与线性代数 / 34 |