kafka中文教程

    原创
半兽人 发表于: 2015-01-01   最后更新时间: 2020-01-11  

本网翻译整理Apache kafka,提供整理Apache kafka的完整学习文档。

布 & 订阅                       理                    

数据流,如消息传递系统               高效并实时                   数据流安全地在分布式集群中复制存储

kafka

kafka是用于构建实时数据管道和流应用程序。具有横向扩展,容错,wicked fast(变态快)等优点,并已在成千上万家公司运行。

简单说明什么是kafka

Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息中间件,只是粗略的讲解,目前kafka已经可以做更多的事情。

举个例子,生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,消费者就消费一个鸡蛋,假设消费者消费鸡蛋的时候噎住了(系统宕机了),生产者还在生产鸡蛋,那新生产的鸡蛋就丢失了。再比如生产者很强劲(大交易量的情况),生产者1秒钟生产100个鸡蛋,消费者1秒钟只能吃50个鸡蛋,那要不了一会,消费者就吃不消了(消息堵塞,最终导致系统超时),消费者拒绝再吃了,”鸡蛋“又丢失了,这个时候我们放个篮子在它们中间,生产出来的鸡蛋都放到篮子里,消费者去篮子里拿鸡蛋,这样鸡蛋就不会丢失了,都在篮子里,而这个篮子就是”kafka“。
鸡蛋其实就是“数据流”,系统之间的交互都是通过“数据流”来传输的(就是tcp、https什么的),也称为报文,也叫“消息”。
消息队列满了,其实就是篮子满了,”鸡蛋“ 放不下了,那赶紧多放几个篮子,其实就是kafka的扩容。
各位现在知道kafka是干什么的了吧,它就是那个"篮子"。

kafka名词解释

后面大家会看到一些关于kafka的名词,比如topic、producer、consumer、broker,我这边来简单说明一下。

  • producer:生产者,就是它来生产“鸡蛋”的。
  • consumer:消费者,生出的“鸡蛋”它来消费。
  • topic:你把它理解为标签,生产者每生产出来一个鸡蛋就贴上一个标签(topic),消费者可不是谁生产的“鸡蛋”都吃的,这样不同的生产者生产出来的“鸡蛋”,消费者就可以选择性的“吃”了。
  • broker:就是篮子了。

大家一定要学会抽象的去思考,上面只是属于业务的角度,如果从技术角度,topic标签实际就是队列,生产者把所有“鸡蛋(消息)”都放到对应的队列里了,消费者到指定的队列里取。

征集

如果你也想分享一些文章,例子。欢迎入群交流:14085484

注意:本群只与文章贡献者进行交流,不回答任何技术咨询,技术问答请到网站上提问,谢谢。

微信公众号

微信公众号,我会定期分享一些实用的操作源码。
screenshot

怎么样才算真正的学会kafka

最近面试发现,很多人用过kafka,但是没人了解原理,我们可是很注重原理的(PS:要不然怎么知道你真的会呢)。

  • kafka节点之间如何复制备份的?
  • kafka消息是否会丢失?为什么?
  • kafka最合理的配置是什么?
  • kafka的leader选举机制是什么?
  • kafka对硬件的配置有什么要求?
  • kafka的消息保证有几种方式?
  • kafka为什么会丢消息?

......你是否都答得上来?(欢迎大家补充!)

这些问题在下面的文章中都可以找到答案,kafka之所以有这么火热,建议各位一定要看一下。

如何学习kafka

还是那句话,学习任何技术,跟学骑自行车一样,不要一开始只关注它的具体细节是什么。先学着怎么骑,骑着骑着就了解大致的原理,这个时候在去看它的原理,会很轻松。

如果你在学习的过程中遇到什么问题,直接评论或者在kafka问题专区中提问。

章节与kafka官网对应一致

第一章:入门
第二章:客户端API
第三章:kafka的配置
第四章:kafka如何设计的
第五章:kafka的实现
第六章:kafka的常用操作,如扩容,删除和增加topic。
第七章:硬件和操作系统
第八章:kafka监控
第九章:安全
第十章:kafka连接器
第十一章:kafka 流
第十二章:源码
第十三章:实战笔记(kafka命令大全

我们的内容会根据官网的更新,而定期更新。



您需要解锁本帖隐藏内容请: 点击这里
本帖隐藏的内容




上一条: 到头了!
下一条: Apache Kafka下载

  • 大佬,你好,我有三个kafka消费者服务节点,配置是同一个消费者组,监听的是相同的topic,这种情况请问消费数据的时候是三个节点轮流消费还是始终只有一个节点消费

    • 不是轮流,在正常情况下是固定的。

      跟topic的分区数有关。

      比如,你的topic有3个分区,那么你的3个消费者每人会固定消费其中1个分区的消息。
      如果你的topic有2个分区,那么你其中一个消费者永远也拿不到消息,直到有其他的消费者故障了。

        • 我试了下,远程服务用的storm整合的kafka,我本地不启动服务的情况下是可以正常消费数据的,但是我本地启动服务的话在我本地的服务基本就全部消费了,远程服务就消费不到了,除非我本地服务停掉。我的疑问是我本地的服务怎么抢到消费的呢?

            • 还有个问题就是我批量消费kafka数据的时候,是设置的业务处理完之后再手动提交的。如果业务操作处理失败了,而我不想让它影响其他数据的消费,所以这把数据的offset记录到mysql,然后提交offset,定时任务去mysql获取失败的offset重新消费。请问我可以设置失败的时候不提交(也就是不持久化),然后跳过这条提交下一条数据,后续再重新消费这条,可以这样操作么

                • 换个消费者组名是可以,但是我不知道是什么导致在使用相同的消费者组监听相同的topic而且远程服务没有宕机的情况下本地消费者抢到数据进行消费的(手动捂脸),虽然这种情况理论上不应该存在

                    大佬,你好,请问下KAFKA官网的文档在本地环境怎样运行起来啊?我需要在无外网的环境上打开文档,多谢!!

                    • 我看官网上有这么一段,但我支持这个命令一直没成功过,不知道是国内网络问题还是怎样,之前做项目的时候,有个大神把官网的文档编译成chm了,不知道是怎样处理的。现在要在无网的环境看文档,这有点痛苦了。
                      Build javadoc and scaladoc
                      ./gradlew javadoc
                      ./gradlew javadocJar # builds a javadoc jar for each module
                      ./gradlew scaladoc
                      ./gradlew scaladocJar # builds a scaladoc jar for each module
                      ./gradlew docsJar # builds both (if applicable) javadoc and scaladoc jars for each module

                        大佬,安卓对接kafka要怎么做呢,很迷茫. 由于现在后台服务对接了kafka,现在要求移动端也换,看到你回复别人的问题( https://www.orchome.com/1398 ),走个api是啥意思,望回复.

                        大佬,我现在有个疑问,我有两个消费者组,group1和group2,去消费同一个topic,如果两个group都是启动的,那么这时候发送消息,这两个group都能消费,这是没问题的,如果我把group1关掉了,然后再发送10条数据,这时候group2是正常消费的,我再启动group1,为什么group1不去消费者10条数据了?

                        博主,一个集群中的俩台brokers内存溢出:java heap space。导致宕机。看日志和收集dump分析没有发现什么问题。有什么建议吗?

                        博主,有2.1.1的对象信息写入kafka的文章吗?

                        感觉发现了新世界,主要是博主一直有维护。学习学习!!

                        kafka节点之间如何复制备份的?
                        kafka消息是否会丢失?为什么?
                        kafka最合理的配置是什么?
                        kafka的leader选举机制是什么?
                        kafka对硬件的配置有什么要求?
                        kafka的消息保证有几种方式?
                        kafka为什么会丢消息?

                        大佬。这几个问题怎样说

                        我们最近一个项目在生产kafka消息时由于业务原因导致消息大小差距较大(有些消息处理是ms级有些是十几分钟)。
                        由于处理时间大于回话超时时间会导致kafka认为消费挂掉,因此调整了最大超时时间(session.timeout.ms设为30min),导致重新分配时间很长。
                        网上有部分推荐的方法是拉取消息和处理消息放2个进程,暂且不考虑内存溢出的问题,将消息放队列里由其他进程作处理,是否可理解为拿内存作为缓冲区?kafka对于此类消息处理是否有较好的处理机制?

                        • 处理时间超过十几分钟...

                          1. 不同的处理时间分到不同的topic中
                          2. kafka支持动态控制消费流量,分别在future的poll(long)中使用pause(Collection) 和 resume(Collection) 来暂停消费指定分配的分区,重新开始消费指定暂停的分区。

                            慕名而来,入门学习kafka