失效链接处理 |
Kafka特性知识讲解 PDF 下载
本站整理下载:
提取码:8es7
相关截图:
主要内容:
整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。
传统的日志分析系统提供了一种离线处理日志信息的可扩展方案,但若要进行实时处理,通常会有较大延迟。因此需要一个系统可以同时搞定在线应用(消息)和离线应用(数据文件,日志等)这就需要kafka。
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。
Producer: 消息和数据的生产者,向Kafka的一个topic发布消息的进程/代码/服务
Consumer:消息和数据的消费者,订阅数据(Topic)并且处理其发布的消息的进程/代码/服务
Consumer Group: 逻辑概念,对于同一个Topic,会广播给不同的group,一个group中,只有一个consumer可以消费该消息
Broker:物理概念,Kafka集群中的每一个Kafka节点
Topic:逻辑概念,Kafka消息的类别,对数据进行区分、隔离
|