Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > Java基础相关 >

阿里云原生实时数仓Hologres技术揭秘 PDF 下载


分享到:
时间:2022-03-31 10:35来源:http://www.java1234.com 作者:转载  侵权举报
阿里云原生实时数仓Hologres技术揭秘 PDF 下载
失效链接处理
阿里云原生实时数仓Hologres技术揭秘 PDF 下载


本站整理下载:
提取码:xubu 
 
 
相关截图:
 
主要内容:

因为侧重点的不同,传统的数据库可以分为交易型的 OLTP 系统和分析型的 OLAP 系
统。随着互联网的发展,数据量出现了指数型的增长,单机的数据库已经不能满足业务的需
求。特别是在分析领域,一个查询就可能需要处理很大一部分甚至全量数据,海量数据带来
的压力变得尤为迫切。这促成了过去十多年来以 Hadoop 技术开始的大数据革命,解决了海
量数据分析的需求。与此同时,数据库领域也出现了一批分布式数据库产品来应对 OLTP 场
景数据量的增长。
为了对 OLTP 系统里的数据进行分析,标准的做法是把里面的数据定期(比如说每天)同
步到一个 OLAP 系统中。这种架构通过两套系统保证了分析型查询不会影响线上的交易。但
是定期同步导致了分析的结果并不是基于最新数据,这种延迟让我们失去了做出更及时的商
业决策的机会。为了解决这个问题,近几年出现了 HTAP 的架构,这种架构允许我们对
OLTP 数据库里的数据直接进行分析,从而保证了分析的时效性。分析不再是传统的 OLAP 系
统或者大数据系统特有的能力,一个很自然的问题是:既然 HTAP 有了分析的能力,它是不
是将取代大数据系统呢?大数据的下一站是什么?
1
大数据的下一站是什么?
为了回答这个问题,我们以推荐系统为例分析一下大数据系统的典型场景。
当你看到购物应用给你展示正好想要买的商品,短视频应用播放你喜欢的音乐时,推荐
系统正在发挥它神奇的作用。一个先进的推荐系统,核心目标是根据用户的实时行为做出个
性化的推荐,用户和系统的每一次交互都将即时优化下一步的体验。为了支持这样一个系
统,后端的大数据技术栈已经演变为一个非常复杂和多元化的系统。
下图展示了一个支持实时推荐系统的大数据技术栈。
为了提供优质的实时个性化推荐,推荐系统重度依赖实时特征和模型的连续更新。
实时特征可以分为两类:
• 系统会收集大量的用户行为事件(比如说浏览、点击等),以及交易记录(比如说从
OLTP 数据库同步过来的付款记录等)。这些数据量非常巨大(可能高达每秒种数千万甚至
上亿条),并且其中的绝大部分不是来自交易系统。为了方便以后使用,这些数据会导入
到系统里(图中的 a),同时它们会和各种维表数据做关联推导出一系列重要的特征(图
中的 1),这些特征会实时更新到推荐系统以优化用户体验。这里的实时维表关联需要低
延迟高吞吐的点查支持才能跟得上新产生的数据。
2
 大数据的下一站是什么?
• 系统也会使用滑动窗口等方式去计算出各种不同维度和时间粒度的特征(比如说一个商品
过去 5 分钟的点击数、过去 7 天的浏览量和过去 30 天的销售等)。根据滑动窗口的粒
度,这些聚合可能通过流计算或者批处理的方式完成。
这些数据也被用来产生实时和离线机器学习的样本,训练出来的模型经过验证后会持续
地更新到推荐系统中。
上述所解释的是一个先进的推荐系统的核心部分,但这只是整个系统的冰山一角。除此
之外还需要实时模型监控、验证、分析和调优等一整套体系,这包含:使用实时大屏去查看
A/B 测试的结果(3),使用交互式分析(4)去做 BI 分析,对模型进行细化和调优。除此之
外,运营还会使用各种复杂的查询去洞察业务的进展,并且通过圈人圈品等方式进行针对性
的营销。
这个例子展示了一个非常复杂但典型的大数据场景,从数据的实时导入(a),到预聚合
(b),从数据服务(1),持续聚合(3),到交互式查询(4),一直到批处理(2)。这
类复杂场景对大数据系统有着非常多样化的需求,在构建这些系统的实践中我们看到了两个
新的趋势。
• 实时化:业务需要快速地从刚刚收集到的数据中获得商业洞察。写入的数据需要在秒级甚
至亚秒级就可见。冗长的离线 ETL 过程正在变得不可容忍。同时,收集到的数据比从
OLTP 系统同步过来的数据要大得多,用户浏览点击等日志类数据甚至要比它大几个数量
级。我们的系统需要有能力在大量实时数据写入的同时提供低延迟的查询能力。
• 服务/分析的融合:传统的 OLAP 系统在业务中往往扮演着比较静态的角色。我们通过分析
海量的数据得到业务的洞察(比如说预计算好的视图、模型等),这些获得的知识通过另
外一个系统提供在线数据服务。这里的服务和分析是个割裂的过程。与此不同的是,理想
的业务决策过程往往是一个持续优化的在线过程。服务的过程会产生大量的新数据,我们
需要对这些新数据进行复杂的分析。分析产生的洞察实时反馈到服务创造更大的商业价
值。服务和分析正在形成一个闭环。
现有的解决方案通过一系列产品的组合来解决实时的服务 / 分析融合的需求。比如说,
通过 Apache Flink 做数据的实时预聚合,聚合后的数据会存储在类似 Apache Druid 这种提
供多维分析的产品中,并且通过 Apache HBase 这类产品来提供数据服务。这种烟囱式开发
的模式会不可避免地产生数据孤岛,从而引起不必要的数据重复,各个产品间复杂的数据同
3
 大数据的下一站是什么?
步也使数据的一致性和安全性成为挑战。这种复杂度使得应用开发很难快速响应新需求,影
响了业务的迭代速度,也给开发和运维都带来了较大的额外开销。

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐