失效链接处理 |
大数据技术之Hive文档 PDF 下载
本站整理下载:
相关截图:
主要内容:
第 第 1 章 Hive 基本概念
1.1 什么是 Hive
Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并
提供类 SQL 查询功能。
本质是:将 HQL 转化成 MapReduce 程序
SQL—Mapreduce
client
通过Hive框架
匹配出相应的
MapReduce模
板
运行MapReduce
程序,生成相应
的分析结果
MapReduce
数据仓库通
过SQL进行
统计分析
将SQL语言中常用的
操作(select,
where,group等)
用MapReduce写成
很多模板
所有的
MapReduce
模板封装
在Hive中
用户根据业务需求
编写相应的SQL语
句
result
图 1-1 HQL 转换 MR 流程
1)Hive 处理的数据存储在 HDFS
2)Hive 分析数据底层的默认实现是 MapReduce
3)执行程序运行在 Yarn 上
1.2 Hive 的优缺点
1.2.1 优点
1) 操作接口采用类 SQL 语法,提供快速开发的能力(简单、容易上手)。
2) 避免了去写 MapReduce,减少开发人员的学习成本。
尚硅谷大数据 技术之 Hive
—— ———————————————————————————
更多 Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网
3) Hive 的执行延迟比较高,因此 Hive 常用于数据分析,对实时性要求不高的场合。
4) Hive 优势在于处理大数据,对于处理小数据没有优势,因为 Hive 的执行延迟比较
高。
5) Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
1.2.2 缺点
1.Hive 的 HQL 表达能力有限
(1)迭代式算法无法表达
(2)数据挖掘方面不擅长
2.Hive 的效率比较低
(1)Hive 自动生成的 MapReduce 作业,通常情况下不够智能化
(2)Hive 调优比较困难,粒度较粗
|