大数据之kafka消费者

article/2025/8/20 22:43:18

🍒今天是端午节,先祝大家端午节快乐!上一期我们学习了kafka的broker部分主要介绍了kafka中的副本、kafka文件的存储的原理,以及kafka的高效读写的保证,今天我们来介绍kafka中的消费者原理,对往期内容感兴趣的小伙伴可以参考👇:

  • 链接: kafka入门基础.
  • 链接: 大数据之kafka生产者原理.
  • 链接: 大数据之kafka生产者数据可靠性保障
  • 链接: 大数据之kafka Broker的工作流程

🍑消费者作为kafka中最重要的部分,如何从主题中消费数据是我们重点关注的地方,话不多说,让我们开始今日份的学习吧!

本文目录

  • 1. 数据消费方式
    • 1.1 pull模式
    • 1.2 push模式
  • 2. 消费者和消费者组
    • 2.1 消费者组和消费者的关系
    • 2.2 消费者组和主题的关系
  • 3. 消费者的工作流程
    • 3.1 消费者消费的大致流程
    • 3.2 消费者组的初始化流程
    • 3.3 消费者组的详细流程
  • 4. 参考资料

1. 数据消费方式

通常来说,消费者消费数据的方式有2种,一种是拉取数据的方式,另一种是broker主动推数据。

1.1 pull模式

kafka中,消费者采用的消费数据的方式是拉取数据的模式,主动从broker中拉取数据。(如果broker中没有数据,可能会造成拉取为空的死循环。)

1.2 push模式

push模式是指broker主动向消费者推送数据,但是由于每个消费者的消费速率不太一样,导致推送的速率很难适应所有的消费者。

2. 消费者和消费者组

初学者对于消费者和消费者组的概念容易搞混,本章在这里单独拿出来讲解。
消费者:消费者就是我们所说的consumer,consumer可以消费主题分区的数据,且相互之间互不影响。
消费者组存在的意义: 应用程序需要创建一个消费者对象,订阅kafka的主题并开始接收消息,然后验证消息并保存结果。可是生产者产生消息的速度超过了应用程序验证数据的速度,这个时候该怎么办?这个时候,就需要对消费者进行横向伸缩,有点像多个生产者向同一个主题写入消息一样,我们也可以使用多个消费者从同一个主题读取消息,对消息进行分流,而这多个消费者组成的组就是消费者组。
注:Kafka 消费者从属于消费者群组。一个群组里的消费者订阅的是同一个主题,每个消费者接收主题一部分分区的消息。

2.1 消费者组和消费者的关系

第一种情况,如下图,消费者组1中含有一个消费者1,需要消费主题T1中的数据,消费者1将接受主题T1中4个分区的数据。
在这里插入图片描述
第二种情况,如下图,消费者组1中新增了一个消费者2,需要消费主题T1中的数据,消费者1接受主题T1中0,2分区的数据;消费者2将接受主题T1中1,3分区的数据。

在这里插入图片描述

第三种情况,如下图,消费者组1中有4个消费者1,2,3,4,需要消费主题T1中的数据,则每个分区都消费都消费一个主题分区的数据。在这里插入图片描述
第四种情况,消费者组1中的消费者个数多于主题分区个数,多余的消费者会被闲置。
在这里插入图片描述

2.2 消费者组和主题的关系

除了通过增加一个消费者组中的消费者个数来横向伸缩单个应用程序外,还经常出现多个应用程序从同一个主题读取数据的情况。这种需求只要保证每个应用程序有自己的消费者群组,就可以让它们获取到主题所有的消息。不同于传统的消息系统,横向伸缩 Kafka 消费者和消费者群组并不会对性能造成负面影响。

如下图,增加了一个消费者组2,虽然他们俩消费同一个主题的数据,但是消费者组2和消费者组1之间没有半毛钱关系,各自独立运行。
在这里插入图片描述
总的来说,需要注意以下2点:

  • 消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费。
  • 消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。

3. 消费者的工作流程

3.1 消费者消费的大致流程

在这里插入图片描述
这里介绍一下,producer向集群的每一个leader发送数据,一批一批的发送,然后follower主动向leader同步数据,然后消费者和消费者组主动拉取数据进行消费,一个消费者或者消费者组可以消费多个分区的数据,消费数据的位置信息由offset进行存储,offset保存在系统主题consumer_offsets中(旧版本offset是维护在zookeeper中)。

3.2 消费者组的初始化流程

这里先介绍一个概念:

  • coordinator:辅助实现消费者组的初始化和分区的分配。(每一个brokder中都有一个coordinator)
    c o o r d i n a t o r 节 点 选 择 = g r o u p i d 的 h a s h c o d e 值 coordinator节点选择 = groupid的hashcode值 % 50(__consumer_offsets的分区数量) coordinator=groupidhashcode

例如: groupid的hashcode值 = 1,1% 50 = 1,那么__consumer_offsets 主题的1号分区,在哪个broker上,就选择这个节点的coordinator作为这个消费者组的老大。消费者组下的所有的消费者提交offset的时候就往这个分区去提交offset。

消费者的消费流程如下,我们来详细解释一下:
在这里插入图片描述

  1. 我们通过 groupid的hashcode值与consumer_offsets 的主题数取余,可以获取确定的 coordinator来辅助消费者组的初始化和分区的分配。比如我们这里选择了broker1的 coordinator。
  2. 消费者组中所有的consumer向coordinator发送加入组的请求。
  3. coordinator会将组中的一个consumer随机选出来作为leader。
  4. coordinator会将消费的topic数据发送给选出来的leader消费者。
  5. leader会制定组内每一个消费者的消费计划。
  6. 制定完计划后将计划发送给coordinator。
  7. coordinator再把计划分享给其他的consumer。

:这个过程中每个消费者都会和coordinator保持心跳默认3s(定期联系),上限是45s,如果45s内没有联系到该消费者,那么 coordinator会认为该消费者出现故障,将它移除,并触发再平衡;或者消费者处理数据的时间过长(5分钟以上)那么也会触发再平衡。

3.3 消费者组的详细流程

上面介绍完了消费者初始化的流程,接下来就是消费者详细消费数据的流程:
在这里插入图片描述
左侧是kafka对应的集群,右侧是我们对应的消费者组,中间是消费者与集群的网络连接。

  1. 首先调用sendfetches方法发送消费者请求
  2. 请求中有三个参数:Fetch.min.bytes每批次最小抓取大小,默认1字节;fetch.max.wait.ms一批数据最小值未达到的超时时间,默认500ms;Fetch.max.bytes每批次最大抓取大小,默认50m
  3. 准备完参数后,向集群发送send请求,会通过回调方法completedFetches将这一批数据拉取过来,以队列的方式存储在消费者网络中,而消费者会以Max.poll.records一次拉取数据返回消息的最大条数,默认500条,过程中会进行反序列化和拦截器处理。

4. 参考资料

-《尚硅谷大数据技术之 Kafka》
-《kafka权威指南》


http://chatgpt.dhexx.cn/article/F2sAemKA.shtml

相关文章

元年智答|数据洞察功能介绍

什么是数据洞察 随着企业积累数据量增多,数据分析师常常需要处理“长且宽”的数据集。依靠人的经验处理海量数据,从海量数据中发掘出有用的信息无异于大海捞针。虽然人工智能技术的普及和单位算力价格的下降大大降低了数据挖掘的门槛,但是面…

营销创意没灵感?社交媒体和消费者洞察给你答案

创意是营销的核心。 品牌需要优秀的创意营销才能吸引消费者、与受众建立联系、宣传产品与服务。 想要营销内容创作方面表现出色,品牌就需要源源不断的新鲜创意来抓住人们的眼球、占领消费者注意力。 在实际营销过程中,出海品牌常常为创意冥思苦想、绞尽…

经典消费者生产者问题

首先你需要了解多线程的流程以及实现多线程的几种方法,同时你要理解什么是并行、并发,以及线程和进程的区别,这里做简要的区别。 线程:一个进程包括多个线程 并行:多个cpu实例或者多台机器同时执行一段处理逻辑&#x…

【报告分享】德勤:2023中国消费者洞察与市场展望.pdf(附下载链接)

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2022年12月份热门报告盘点 罗振宇2023年跨年演讲PPT原稿吴晓波2022年年终秀演讲PPT原稿2023年,如何科学制定年度规划? 《底层逻辑》高清配图 华为202…

2023中国消费者洞察报告

下载报告去公众号:硬核刘大 后台回复“ 消费者洞察”,即可下载完整PDF文件。 更多报告内容,可加微信:chanpin628 领取。(ps:加过微信:chanpin628 的不要再加,分享的内容一样,有一个…

大数据营销更需要消费者洞察

2013年10月17日,独立商业趋势观察家,知名中国消费趋势研究专家,数字营销专家肖明超先生,应凤凰网的邀请参加了凤凰网在广州举办的“营销人的幸福梦”主题沙龙活动,并与凤凰网副总裁徐进、琥珀传播CEO刘阳,一…

消费者消费消息分析

消费者读流程 】每个consumer都可以根据分配策略(默认RangeAssignor),获得要消费的分区 】 获取到consumer对应的offset(默认从ZK中获取上一次消费的offset) 】 找到该分区的leader,拉取数据 】 消费者提交…

消费者详解-消费消息(1)

文章目录 消费者消费消息流程Pull消费流程1. 初始化消费者2. 拉取topic的消息队列3. 拉取消费位点4. 根据消费位点消费消息5. 保存消费进度拉取消息-pullKernelImpl Broker处理拉取消息请求1、权限、参数校验并且获取初始化变量:2、获取拉取消息的topic配置3、解析订…

直播报名 | 海外社交媒体趋势如何?出海品牌如何掌握消费者洞察?

近年来,中国品牌出海势头强劲,智能硬件、互联网应用、时尚服饰等正加速风靡海外市场,涌现出像安克创新、SHEIN这样的全球化品牌。有人提问,安克创新,凭借什么成为全球化品牌?出海企业可以从中借鉴什么&…

Kafka消费者不消费数据

背景: 工作往往是千篇一律,真正能学到点知识都是在上线后。使用SkywalkingKafkaES进行应用监控。 现象: 公司使用Skywalking在开发测试环境中Kafka顺利消费数据,到了UAT环境一开始还正常,后面接入了更多的应用后出现…

食品品牌如何做好消费需求洞察直抵消费者心智

做生意的都明白这样一个道理:“先找到买主,再依照需求出售”。之所以这一点很重要,因为这揭示了一条经营企业过程中必须遵守的金科玉律:先有需求,而后才有你的品牌、服务或功能。 需求洞察是品牌、产品、服务等一切的…

消费者洞察:数据影响消费,消费营造数据

本文根据Stratifyd资深解决方案经理段鑫龙(Bruce Duan)在9月24日的直播演讲内容整理,演讲围绕“如何洞察消费者”从四个层面展开:首先是(疫情期间以及后疫情时代)消费品行业的发展现状和未来趋势;然后是当前现状下如何通过数据化闭环洞察消费者;有了前面的理论支撑和方…

助力品牌洞察——消费者情绪行为分析

什么是情绪分析? 随着社交网络和数字营销的出现,消费者对产品和品牌的评价受到越来越多的关注。在线用户反馈(例如产品评价、社交媒体评论和调查问卷等)包含了大量具有价值的数据。通过这些数据,可以了解消费者对您产…

数据分析:消费者数据分析

数据分析:消费者数据分析 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏&#x1f4c1…

消费者洞察:案例透视消费者洞察实践与收益

本文根据Stratifyd资深解决方案经理段鑫龙(Bruce Duan)在“如何洞察您的消费者”直播课主题演讲整理。点击链接(https://live.vhall.com/534333188)查看完整演讲视频,关注Stratifyd微信公众号并在后台回复“粉丝群”,还可进群申领演讲课件,及时关注Stratifyd最新培训资讯…

消费者洞察:一文看懂消费者是如何做选择的

作者:付永承 全文共 4214 字,阅读需要 9 分钟 ———— / BEGIN / ———— “为什么有时候明明比对手更有优势,产品就是无人问津?” “为什么花了那么多广告费,销量怎么就是上不来?” “为什么之前的营销…

消费者洞察:数据化闭环洞察消费者

本文根据Stratifyd资深解决方案经理段鑫龙(Bruce Duan)在“如何洞察您的消费者”直播课主题演讲整理。上周我们通过“数据影响消费,消费营造数据”这篇文章了解了消费品行业的发展现状,新生代互联网消费者更乐于分享表达,然而消费者触点分散,对企业洞察消费者、了解消费者…

系统资源不足,无法完成请求服务。

使用visual studio 编译时: 清理了磁盘…重装了VS2019 没用… 后来一个学长说试试卸载McAfee well done!

win10突然提示系统资源不足,无法完成请求服务的解决方法(VS)win10跑代码变慢

大概率是McAfee搞得鬼 解决方法:点击PC安全-实时扫描-关闭 电脑也快多了,跑代码也快了很多 直接卸载McAfee也可

c语言无纸化软件系统资源不足,系统资源不足无法完成请求的服务怎么办_系统资源不足卸载迈克菲解决教程 - 系统家园...

最近很多用户在问小编系统资源不足无法完成请求的服务怎么解决,小编电脑没有遇到这个问题,但是看到了贴吧很多小伙伴都有这个问题,发现有个共性就是装了迈克菲McAfee杀毒防护软件,下面快点来看看怎么解决问题吧。 系统资源不足卸载…