失效链接处理 |
Hive总结 PDF 下载
本站整理下载:
相关截图:
主要内容:
1.1Hive介绍
Hive大数据仓库解决方案,基于Hadoop平台搭建的数据仓库
英文名称为Data Warehouse,可简写为DW。
面向分析的存储系统(面向数据分析的存储系统)
数据库与数据仓库的区别?
数据库-mysql/oracle
面向事务性操作
响应及时
数据量不大
数据仓库-hive /oracle
面向分析操作
存储历史数据
数据量大
响应不及时
Hive解决什么问题 Oracle -- 传统数据仓库搭建
在Haddop项目中,HDFS解决了文件分布式存储的问题,MapReducce解决了数据处理分布式计算的问题,Hbase解决了数据的存储和检索。
但是要对HDFS上的文件或者Hbase上的表进行查询的时候,要手工写一堆的MapReduce,这只能由懂MapReduce的程序员操作,对于业务人员或数据科学家,非常不方便。因为他们已经习惯了通过SQL跟RDBMS(关系数据库管理系统)打交道,因此如果有sql查询文件和数据就显得很有必要,这就是hive要满足的需求。
Hive是一个SQL解析引擎,将SQL语句转译成MR Job,然后再Hadoop平台上运行,达到快速开发的目的。
Hive本身不存储数据,它完全依赖HDFS和MapReduce。
Hive的内容是读多写少,不支持对数据的改写和删除
Hive -- 解决海量数据分布式存储问题,基于Hadoop平台搭建的数据仓库
-- 表面 SQL
-- 计算 计算引擎 MR Tez Spark
-- 资源 Yarn StandLone
-- 存储 HDFS
1.2Hive原理
Hive原理详解:https://blog.csdn.net/ForgetThatNight/article/details/79632364?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162246709116780265416331%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=162246709116780265416331&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-2-79632364.first_rank_v2_pc_rank_v29&utm_term=hive%E5%8E%9F%E7%90%86&spm=1018.2226.3001.4187
Hive的基本工作,简单提炼一下来表述,就是将结构化的数据映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
1.2.1 分层
1. 用户接口
CLI JDBC|Beeline Hive Web
2. Hive
HiveServer2 -- 提供客户端认证服务
Hive MetaStore -- 元数据可以部署为MYSQL或嵌入式数据库Derby
Hive Driver --
SQL解析器
SQL优化器
SQL执行器
3. Hadoop Core
计算 mr tez spark
资源 yarn mesos alone local
存储 hdfs
2. 分析hive-site.xml
metastore.xxx:
表存放的HDFS目录地址 /warehouse/tablespace/managed/hive/
元数据存放的地址 MYSQL jdbc:mysql://master/hive
1.2.2 工作原理
1.接收SQL语句;
2.进行词法分析和语法分析;
3.进行语义分析;
4.生成逻辑计划,得到算子树;
5.逻辑计划优化。对算子树进行优化,包括剪枝和谓词下推等;
6.物理计划生成。将逻辑计划生产出包含由MapReduce任务组成的DAG的物理计划;
7.物理计划执行。将DAG发送到Hadoop集群进行执行;
8.将查询结果返回。
|