Kafka的原理、基础架构、以及使用场景详解

Kafka的原理、基础架构、以及使用场景详解

article/2025/10/7 21:17:59

一：Kafka简介

Apache Kafka是分布式发布-订阅消息系统，在 kafka官网上对 kafka 的定义：一个分布式发布-订阅消息传递系统。

Kafka最初由LinkedIn公司开发，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景有：日志收集系统和消息系统。

二：Kafka基本架构

它的架构包括以下组件：

1、话题（Topic）：是特定类型的消息流。消息是字节的有效负载（Payload），话题是消息的分类名；

2、生产者（Producer）：是能够发布消息到话题的任何对象；

3、服务代理（Broker）：已发布的消息保存在一组服务器中，它们被称为代理（Broker）或Kafka集群；

4、消费者（Consumer）：可以订阅一个或多个话题，并从Broker拉数据，从而消费这些已发布的消息；

上图中可以看出，生产者将数据发送到Broker代理，Broker代理有多个话题topic，消费者从Broker获取数据。

三：Kafka基本原理

我们将消息的发布（publish）称作 producer，将消息的订阅（subscribe）表述为 consumer，将中间的存储阵列称作 broker(代理)，这样就可以大致描绘出这样一个场面：

生产者将数据生产出来，交给 broker 进行存储，消费者需要消费数据了，就从broker中去拿出数据来，然后完成一系列对数据的处理操作。

多个 broker 协同合作，producer 和 consumer 部署在各个业务逻辑中被频繁的调用，三者通过 zookeeper管理协调请求和转发，这样一个高性能的分布式消息发布订阅系统就完成了。

图上有个细节需要注意，producer 到 broker 的过程是 push，也就是有数据就推送到 broker，而 consumer 到 broker 的过程是 pull，是通过 consumer 主动去拉数据的。

四：Zookeeper在kafka的作用

（1）无论是kafka集群，还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。

（2）Kafka使用zookeeper作为其分布式协调框架，很好的将消息生产、消息存储、消息消费的过程结合在一起。

（3）同时借助zookeeper，kafka能够生产者、消费者和broker在内的所以组件在无状态的情况下，建立起生产者和消费者的订阅关系，并实现生产者与消费者的负载均衡。

五：Kafka的特性

1.高吞吐量、低延迟

kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。

2.可扩展性

kafka集群支持热扩展

3.持久性、可靠性

消息被持久化到本地磁盘，并且支持数据备份防止数据丢失

4.容错性

允许集群中节点失败（若副本数量为n,则允许n-1个节点失败）

5.高并发

支持数千个客户端同时读写

六：Kafka的应用场景

1.日志收集

一个公司可以用Kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consumer，例如hadoop、Hbase、Solr等。

2.消息系统

解耦和生产者和消费者、缓存消息等。

3.用户活动跟踪

Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。

4.运营指标

Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。

5.流式处理

比如spark streaming和storm

喜欢的朋友点个赞支持一下吧，还可以获取免费文档资料哦。

http://chatgpt.dhexx.cn/article/hGUedgrY.shtml

相关文章

Kafka入门、Kafka应用场景、Kafka设计理念 01

Kafka入门、Kafka应用场景、Kafka设计理念 01

1. Kafka简介 Kafka是linkedin用于日志处理的分布式消息队列，同时支持离线和在线日志处理。Kakfa对消息保存时根据Topic进行归类，发送消息者成为Producer，消息接受者成为Consumer。Kafka集群有多个Kafka实例组成，每个实例&#x…

阅读更多...

kafka笔记N0.4Kafka应用场景

kafka笔记N0.4Kafka应用场景

消息 kafka更好的替换传统的消息系统。kafka有更好的吞吐量，内置分区，副本和故障转移。网站活动追踪用户活动的追踪，网站的活动（网页浏览，搜索或其他用户的操作信息）发布到不同的话题中心，这…

阅读更多...

kafka简介及应用场景、架构

kafka简介及应用场景、架构

1、简介 kafka是最初由linkedin公司开发的，使用scala语言编写，kafka是一个分布式，分区的，多副本的，多订阅者的日志系统（分布式MQ系统），可以用于搜索日志，监控日志&#…

阅读更多...

RocketMQ：与Kafka对比应用场景及组成架构

RocketMQ：与Kafka对比应用场景及组成架构

文章目录 1.应用场景1.1.RocketMQ应用场景1.2.Kafka应用场景 2.架构组成2.1.RocketMQ架构组成2.2.Kafka架构组成 1.应用场景 1.1.RocketMQ应用场景 RocketMQ 是阿里巴巴开源的分布式消息中间件，前身为阿里内部消息系统Notify及MetaQ。RocketMQ被广泛应用于电商、订…

阅读更多...

详解Kafka应用场景及工作原理

详解Kafka应用场景及工作原理

一、概述 Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的发布/订阅式分布式消息系统二、特性持久性、可靠性：消息被持久化到…

阅读更多...

Kafka应用场景

Kafka应用场景

序在学习一门新技术之前，我们需要先去了解一下这门技术的具体应用场景，使用它能够做什么，能够达到什么目的，学习kafka的初衷是用作消息队列；但是还可以使用Kafka Stream进行一些实时的流计算，多用于大数据…

阅读更多...

Kafka基本概念与应用场景

Kafka基本概念与应用场景

一、Kafka的定义 Apache Kafka是一种分布式的、基于发布/订阅的消息系统，由Scala语言编写而成。它具备快速、可扩展、可持久化的特点。Kafka最初由LinkedIn开发，并于2011年初开源， 2012年10月从Apache孵化器毕业，成为Apache基金会…

阅读更多...

kafka使用场景与设计原理

kafka使用场景与设计原理

目录 1 kafka的介绍 2 架构 2.1 工作流程 2.2 副本原理 2.3 分区和主题的关系 2.4 生产者 2.4.1 为什么分区-可以水平扩展 2.4.2 分区策略 2.5 消费者 2.5.1 消费方式 2.5.2 分区分配策略 2.6 数据可靠性保证 2.6.1 副本数据同步策略 2.6.2 ACK 应答机制 2.6.3 …

阅读更多...

kafka学习（六）：kafka应用场景

kafka学习（六）：kafka应用场景

消息队列中间件是分布式系统中重要的组件，主要解决应用解耦，异步消息，流量削锋等问题，实现高性能，高可用，可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ，RabbitMQ，Zero…

阅读更多...

kafka使用场景

kafka使用场景

kafka基本介绍 kafka是使用scala语言和java语言编写的一套高可用的消息队列，广泛应用在后端开发里，是后端开发里的一个重要中间件。 kafka的使用场景 1、异步处理下图为一个订单状态在后端各个模块之间的处理流程，后一个流程必须要等到前…

阅读更多...

kafka的应用场景

kafka的应用场景

关于消息队列的使用一、消息队列概述消息队列中间件是分布式系统中重要的组件，主要解决应用解耦，异步消息，流量削锋等问题，实现高性能，高可用，可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ…

阅读更多...

解开Kafka神秘的面纱(一)：kafka架构与应用场景

解开Kafka神秘的面纱(一)：kafka架构与应用场景

文章目录一、前言二、Kafka简介2.1 Kafka简介2.2 基于分布式的Kafka 三、Kafka架构3.1 消息生产与消费3.1.1 消息生产与消费模型3.1.2 Kafka消费单元是消费者组3.1.3 Kafka只消费Partition主分区的消息3.1.4 消费者组中的每个消费者的offset3.1.5 小结 3.2 Partition备份与选主…

阅读更多...

Metricbeat使用与入门-1 收集系统指标数据到ES中

Metricbeat使用与入门-1 收集系统指标数据到ES中

Metricbeat由模块和指标集组成。Metricbeat 模块定义了从特定服务（例如Redis，MySQL等）收集数据的基本逻辑。系统环境：CentOS 7.4 ES版本：7.6.1 Metricbeat版本：7.6.1 1 安装 Metricbeat版本：7…

阅读更多...

Beats：Beats 入门教程（二）

Beats：Beats 入门教程（二）

这篇文章是 “Beats 入门教程 （一）”的续篇。在上一篇文章，我们主要讲述了 Beats 的一些理论方面的知识。在这篇文章中，我们将具体展示如何使用 Filebeat 及 Metriceat 把数据导入到我们的 Elasticsearch 并对他们进行分析。安装…

阅读更多...

MetricBeat + Elasticsearch + Kibana 实现监控指标可视化

MetricBeat + Elasticsearch + Kibana 实现监控指标可视化

1、Elasticsearch 监控指标可视化概述之前的推文 Elasticsearch 磁盘使用率超过警戒水位线，怎么办？有读者留言：“配合监控系统”。是的，监控系统就像我们的车载监控，平时可能用不到，一用到的时候就是“大…

阅读更多...

关于 Kubernetes中集群统一日志管理方案(Elasticsearch+Filebeat+Kibana+Metricbeat)搭建的一些笔记

关于 Kubernetes中集群统一日志管理方案(Elasticsearch+Filebeat+Kibana+Metricbeat)搭建的一些笔记

写在前面学习K8s，所以整理分享给小伙伴这里要说明的是：这一套方案太吃硬件了，需要高配的本才能跑起来我的16G运存,集群用三个虚机部署的，工作节点都是3核5G的配置折腾了两天没有跑起来，后来放弃了，查了下&…

阅读更多...

metricbeat实现容器监控

metricbeat实现容器监控

Metricbeat是elastic下的项目，在5.1及之后的版本中支持对Docker的监控，需与EK配合使用能在界面上显示，也可直接将数据导入kafka中。 -1.安装使用版本: elasticsearch-5.2.0-1.noarch（用于输出显示） kibana-5.2.0-…

阅读更多...

Centos 7.9 安装 ELK8.1.0+MetricBeat

Centos 7.9 安装 ELK8.1.0+MetricBeat

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录环境一、前期准备： 1.下载ELKMetircBeat rpm包 2.CentOS 设置二、安装Elasticsearch 1.安装rpm 2.配置Elasticsearch 修改配置档开防火墙设…

阅读更多...

Storm Metric

Storm Metric

storm从0.9.0开始，增加了指标统计框架，用来收集应用程序的特定指标，并将其输出到外部系统。本文中采用的监听类是LoggingMetricsConsumer，统计指标值将输出到metric.log日志文件中。当然也可以自定义监听类，只需要实…

阅读更多...

Beats：如何启动 Metricbeat 中的 MySQL 模块 - query Metricset

Beats：如何启动 Metricbeat 中的 MySQL 模块 - query Metricset

在我做之前的教程 “Observability：Elastic Metrics 应用介绍”，我发现当我尝试启动 MySQL 模块中的 query metricset 会出现错误。之后我发现官方文档也缺少相应的资料。在今天的文章中，我将介绍如上启动这个 metricset。在使用这个 metrics…

阅读更多...

推荐文章