Hive总结 PDF 下载_Java知识分享网-免费Java资源下载

失效链接处理

Hive总结 PDF 下载

本站整理下载：

链接：https://pan.baidu.com/s/1_TmrM2OQrl8UN07ZQyJLlw

提取码：dq5p

相关截图：

主要内容：

1.1Hive介绍

Hive大数据仓库解决方案，基于Hadoop平台搭建的数据仓库

英文名称为Data Warehouse，可简写为DW。

面向分析的存储系统(面向数据分析的存储系统）

数据库与数据仓库的区别？

数据库-mysql/oracle

面向事务性操作

响应及时

数据量不大

数据仓库-hive /oracle

面向分析操作

存储历史数据

数据量大

响应不及时

Hive解决什么问题 Oracle -- 传统数据仓库搭建

在Haddop项目中，HDFS解决了文件分布式存储的问题，MapReducce解决了数据处理分布式计算的问题，Hbase解决了数据的存储和检索。

但是要对HDFS上的文件或者Hbase上的表进行查询的时候，要手工写一堆的MapReduce，这只能由懂MapReduce的程序员操作，对于业务人员或数据科学家，非常不方便。因为他们已经习惯了通过SQL跟RDBMS（关系数据库管理系统）打交道，因此如果有sql查询文件和数据就显得很有必要，这就是hive要满足的需求。

Hive是一个SQL解析引擎，将SQL语句转译成MR Job，然后再Hadoop平台上运行，达到快速开发的目的。

Hive本身不存储数据，它完全依赖HDFS和MapReduce。

Hive的内容是读多写少，不支持对数据的改写和删除

Hive -- 解决海量数据分布式存储问题，基于Hadoop平台搭建的数据仓库

-- 表面 SQL

-- 计算计算引擎 MR Tez Spark

-- 资源 Yarn StandLone

-- 存储 HDFS

1.2Hive原理

Hive原理详解：https://blog.csdn.net/ForgetThatNight/article/details/79632364?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162246709116780265416331%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=162246709116780265416331&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-2-79632364.first_rank_v2_pc_rank_v29&utm_term=hive%E5%8E%9F%E7%90%86&spm=1018.2226.3001.4187

Hive的基本工作，简单提炼一下来表述，就是将结构化的数据映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。

1.2.1 分层

1. 用户接口

CLI JDBC|Beeline Hive Web

2. Hive

HiveServer2 -- 提供客户端认证服务

Hive MetaStore -- 元数据可以部署为MYSQL或嵌入式数据库Derby

Hive Driver --

SQL解析器

SQL优化器

SQL执行器

3. Hadoop Core

计算 mr tez spark

资源 yarn mesos alone local

存储 hdfs

2. 分析hive-site.xml

metastore.xxx:

表存放的HDFS目录地址 /warehouse/tablespace/managed/hive/

元数据存放的地址 MYSQL jdbc:mysql://master/hive

1.2.2 工作原理

1.接收SQL语句；

2.进行词法分析和语法分析；

3.进行语义分析；

4.生成逻辑计划，得到算子树；

5.逻辑计划优化。对算子树进行优化，包括剪枝和谓词下推等；

6.物理计划生成。将逻辑计划生产出包含由MapReduce任务组成的DAG的物理计划；

7.物理计划执行。将DAG发送到Hadoop集群进行执行；

8.将查询结果返回。

最新Java全栈就业实战课程(免费)

AI人工智能学习大礼包

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦！

Python学习路线图

Hive总结 PDF 下载