失效链接处理 |
Flink一线公司经验实战 PDF 下载
本站整理下载:
提取码:114i
相关截图:
主要内容:
Apache Flink 在中国的应用
随着 Flink 社区的快速发展,其技术也逐渐走向成熟。在 2019 年,国内已经
有大量的本土互联网公司开始采用 Apache Flink 作为主流的实时计算解决方案。同
时,在全球范围内,优步、网飞、微软和亚马逊等国际互联网公司也逐渐开始使用
Apache Flink。
6 > 仅 1 年 GitHub Star 数翻倍,Apache Flink 做了什么?
Apache Flink 的未来
如今,Flink 的主要应用场景基本上还是数据分析,尤其是实时数据分析。Flink
本质上是一款流式数据处理引擎,覆盖的场景主要是实时数据分析、实时风控、实时
ETL 处理等。未来,社区希望 Flink 演化成为统一的数据引擎。
● 在离线数据处理方面,希望 Flink 能够在流数据处理的基础之上进一步实现批
与流的统一,提供统一的数据处理和分析的解决方案。
● 另一方面,朝着在线数据分析处理的方向演进,即利用 Flink 的核心优势、
Event-Driven Function 的能力以及 Flink 自带的状态管理等特性实现在线的
函数计算。
近年来,AI 场景发展得如火如荼并且计算的规模也越来越大。因此,Flink 社区
也希望能够主动拥抱 AI 场景,在 Flink 机器学习方面支持 AI 场景,甚至和 AI 原生
的深度学习引擎比如 Flink + TensorFlow、Flink + PyTorch 等实现协同,提供大
数据 +AI 的全链路解决方案。
统一的数据分析解决方案
下图为 Apache Flink 批流一体的发展路线图。在 1.9 版本之前,Flink 的批和
流还属于两条 Code Path,DataSet 和 DataStream 是两条独立的 API,具有两
套不同的运行时环境,尚未实现批流一体的高度融合。所以在 2019 年发布的 Flink
1.9 版本和即将发布的 1.10 版本中,社区投入了大量精力去做 Flink 批流一体架构的
整合。经过一年的努力,在 Flink 1.10 版本中已经实现了 Flink Task 的运行时环境、
仅 1 年 GitHub Star 数翻倍,Apache Flink 做了什么? < 7
执行引擎层以及 SQL 和 Table 层面的批和流的高度统一。但是目前而言,Flink 在
架构上还没有完全实现批流全部统一。未来,社区希望将 DataSet 和 DataStream
两套 API 做到批流高度融合。
统一 Flink SQL
SQL 是在大数据处理中当之无愧的“王道”语言,同时也是最通用、最主流的
语言。在 Flink 1.9 版本中发布了一部分统一的 SQL 功能,而未来在 1.10 版本中也
会发布更多的新功能,比如采用了批流统一的 Query 处理器、支持完整的 DDL 功
能。此外,Flink 还通过了 TPC-H 和 TPC-DS 的测试集验证,已达到生产级可用
状态。Flink 1.10 版本还增强了对于 Python 的支持,目前 Flink SQL 能够非常方
便地使用 Python UDF。除此之外,Flink 也积极地拥抱了 Hive 生态,使得 Flink
SQ
|