Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!

阿里云云原生数据湖体系 PDF 下载


分享到:
时间:2020-11-14 08:03来源:http://www.java1234.com 作者:转载  侵权举报
阿里云云原生数据湖体系 PDF 下载
失效链接处理
阿里云云原生数据湖体系  PDF 下载


本站整理下载:
提取码:basx 
 
 
相关截图:
 
主要内容:

“数据湖”正在被越来越多人提起,尽管定义并不统一,但企业们都已纷纷下水实践, 无论是 AWS 还是阿里云、华为。 我们认为:数据湖是大数据和 AI 时代融合存储和计算的全新体系。 为什么这么说?还要从它的发展说起。 数据量爆发式增长的今天,数字化转型成为 IT 行业的热点,数据需要更深度的价值挖 掘,因此需要确保数据中保留的原始信息不丢失,应对未来不断变化的需求。 当前以 Oracle 为代表的数据库中间件已经逐渐无法适应这样的需求,于是业界也不断 地产生新的计算引擎,以便应对大数据时代的到来。 企业开始纷纷自建开源 Hadoop 数据湖架构,原始数据统一存放在 HDFS 系统上,引 擎以 Hadoop 和 Spark 开源生态为主,存储和计算一体。 缺点是需要企业自己运维和管理整套集群,成本高且集群稳定性较差。 在这种情况下,云上托管 Hadoop 数据湖架构(即 EMR 开源数据湖)应运而生。底 层物理服务器和开源软件版本由云厂商提供和管理,数据仍统一存放在 HDFS 系统上,引 擎以 Hadoop 和 Spark 开源生态为主。 这个架构通过云上 IaaS 层提升了机器层面的弹性和稳定性,使企业的整体运维成本有 所下降,但企业仍然需要对 HDFS 系统以及服务运行状态进行管理和治理,即应用层的运 维工作。因为存储和计算耦合在一起,稳定性不是最优,两种资源无法独立扩展,使用成本也不 是最优。
5 > 阿里云重磅发布云原生数据湖体系 同时,受到开源软件本身能力的限制,传统数据湖技术无法满足企业用户在数据规模、 存储成本、查询性能以及弹性计算架构升级等方面的需求,也无法达到数据湖架构的理想目 标。企业在这个时期需要更低廉的数据存储成本、更精细的数据资产管理、可共享的数据湖 元数据、更实时的数据更新频率以及更强大的数据接入工具。 云原生时代到来,我们可以有效利用公有云的基础设施,数据湖平台也有了更多的技术 选择。比如云上纯托管的存储系统逐步取代 HDFS,成为数据湖的存储基础设施,并且引 擎丰富度也不断扩展。 除了 Hadoop 和 Spark 的生态引擎之外,各云厂商还发展出面向数据湖的引擎产品。 如分析类的数据湖引擎有 AWS Athena 和华为 DLI,AI 类的有 AWS Sagemaker。 这个架构仍然保持了一个存储和多个引擎的特性,所以统一元数据服务至关重要。 基于此,阿里云正式发布了云原生数据湖体系,由对象存储 OSS、数据湖构建 Data Lake Formation、E-MapReduce 产品强强组合,提供存储与计算分离架构下,湖存储、 湖加速、湖管理、湖计算的企业级数据湖解决方案。  数据湖存储用云上的对象存储 OSS 加上 JindoFS 取代 HDFS,提升数据规模、 降低存储成本、实现计算和存储分离架构;  数据湖构建(DLF)服务提供统一元数据和统一的权限管理,支持多套引擎接入;  EMR 上 Spark 等计算引擎的云原生化,可以更好的利用弹性计算资源;  云上的数据开发治理平台 DataWorks 解决了数据湖元数据治理、数据集成、数据 开发等问题。 数据是最好的佐证:阿里云云原生数据湖体系可支持 EB 级别的数据湖,存储超过 10 万 Database、1 亿 Table 以及 10 亿级别的 Partition,每天支持超过 30 亿次的元数据服 务请求,支持超过 10 个开源计算引擎以及 MaxCompute 和 Hologres 等云原生数仓引擎。

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐