失效链接处理 |
Apache Impala PDF 下载
本站整理下载:
提取码:080t
相关截图:
主要内容:
二、 Apache Impala
1. Impala 基本介绍
impala 是 cloudera 提供的一款高效率的 sql 查询工具,提供实时的查询
效果,官方测试性能比 hive 快 10 到 100 倍,其 sql 查询比 sparkSQL 还要更加
快速,号称是当前大数据领域最快的查询 sql 工具,
impala 是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分
布式图计算、Dremel--交互式分析工具)当中的 Dremel 实现而来,其中旧三篇
论文分别是(BigTable,GFS,MapReduce)分别对应我们即将学的 HBase 和已
经学过的 HDFS 以及 MapReduce。
impala 是基于 hive 并使用内存进行计算,兼顾数据仓库,具有实时,批
处理,多并发等优点。
2. Impala 与 Hive 关系
impala 是基于 hive 的大数据分析查询引擎,直接使用 hive 的元数据库
metadata,意味着 impala 元数据都存储在 hive 的 metastore 当中,并且 impala 兼 容 hive 的绝大多数 sql 语法。所以需要安装 impala 的话,必须先安装 hive,保证
hive 安装成功,并且还需要启动 hive 的 metastore 服务。 Hive 元数据包含用 Hive 创建的 database、table 等元信息。元数据存储在关
系型数据库中,如 Derby、MySQL 等。
客户端连接 metastore 服务,metastore 再去连接 MySQL 数据库来存取元数
据。有了 metastore 服务,就可以有多个客户端同时连接,而且这些客户端不需
要知道 MySQL 数据库的用户名和密码,只需要连接 metastore 服务即可。
nohup hive --service metastore >> ~/metastore.log 2>&1 &
|