Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 大数据云计算 >

Hive总结 PDF 下载


分享到:
时间:2021-06-13 08:11来源:http://www.java1234.com 作者:转载  侵权举报
Hive总结 PDF 下载
失效链接处理
Hive总结 PDF 下载

本站整理下载:
提取码:dq5p 
 
 
相关截图:
 
主要内容:

1.1Hive介绍
Hive大数据仓库解决方案,基于Hadoop平台搭建的数据仓库
英文名称为Data Warehouse,可简写为DW。
面向分析的存储系统(面向数据分析的存储系统)
数据库与数据仓库的区别?
数据库-mysql/oracle
面向事务性操作
响应及时
数据量不大
数据仓库-hive /oracle
面向分析操作
存储历史数据
数据量大
响应不及时
 
Hive解决什么问题 Oracle -- 传统数据仓库搭建
在Haddop项目中,HDFS解决了文件分布式存储的问题,MapReducce解决了数据处理分布式计算的问题,Hbase解决了数据的存储和检索。
但是要对HDFS上的文件或者Hbase上的表进行查询的时候,要手工写一堆的MapReduce,这只能由懂MapReduce的程序员操作,对于业务人员或数据科学家,非常不方便。因为他们已经习惯了通过SQL跟RDBMS(关系数据库管理系统)打交道,因此如果有sql查询文件和数据就显得很有必要,这就是hive要满足的需求。
Hive是一个SQL解析引擎,将SQL语句转译成MR Job,然后再Hadoop平台上运行,达到快速开发的目的。
Hive本身不存储数据,它完全依赖HDFS和MapReduce。
Hive的内容是读多写少,不支持对数据的改写和删除
Hive   -- 解决海量数据分布式存储问题,基于Hadoop平台搭建的数据仓库
  -- 表面 SQL
  -- 计算 计算引擎 MR Tez Spark
  -- 资源 Yarn StandLone
  -- 存储 HDFS
1.2Hive原理
Hive原理详解:https://blog.csdn.net/ForgetThatNight/article/details/79632364?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162246709116780265416331%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=162246709116780265416331&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-2-79632364.first_rank_v2_pc_rank_v29&utm_term=hive%E5%8E%9F%E7%90%86&spm=1018.2226.3001.4187
 
Hive的基本工作,简单提炼一下来表述,就是将结构化的数据映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
1.2.1 分层 
1. 用户接口
CLI JDBC|Beeline Hive Web
2. Hive
HiveServer2 -- 提供客户端认证服务
Hive MetaStore -- 元数据可以部署为MYSQL或嵌入式数据库Derby
Hive Driver --
SQL解析器
SQL优化器
SQL执行器
3. Hadoop Core
计算 mr tez spark
资源 yarn mesos alone local
存储 hdfs
2. 分析hive-site.xml
metastore.xxx:
表存放的HDFS目录地址  /warehouse/tablespace/managed/hive/
元数据存放的地址      MYSQL     jdbc:mysql://master/hive
1.2.2 工作原理
1.接收SQL语句;
2.进行词法分析和语法分析;
3.进行语义分析;
4.生成逻辑计划,得到算子树;
5.逻辑计划优化。对算子树进行优化,包括剪枝和谓词下推等;
6.物理计划生成。将逻辑计划生产出包含由MapReduce任务组成的DAG的物理计划;
7.物理计划执行。将DAG发送到Hadoop集群进行执行;
8.将查询结果返回。

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐