失效链接处理 |
Flink技术参考手册 PDF 下载
本站整理下载:
相关截图:
主要内容:
学习前置
1.有一定了解实时处理
2.了解分布式常见概念
一、Flink简介
Flink是什么?
Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算,Flink是一个分布式计算框架。Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。
Flink可以搭建廉价机群,快速处理任意规模的数据。
Flink总体架构如图,从左往右看。
Flink的实时处理是一个个Event(事件)驱动的(类比Kafka,Flume),不同于Spark Streaming中微批次。
(1)Flink的架构
简单理解无界流和有界流
无界流:流数据不会停止,没有边界,需要实时处理,绝对的实时处理,来一条,处理一条。
有界流:定义了数据的范围,类比Spark-Streaming中的微批次处理,Hive离线Mr处理。
Flink擅长于处理无界数据流(例如Kafka里的日志数据),有界数据集。
Fink可以部署在Yarn,K8s,Mesos多种资源调度框架中。
|