kafka中文教程

    原创
半兽人 发表于: 2015-01-01   最后更新时间: 2019-09-24  

本网翻译整理Apache kafka,提供整理Apache kafka的完整学习文档。

布 & 订阅                        理                     

数据流,如消息传递系统               高效并实时                   数据流安全地在分布式集群中复制存储

kafka

kafka是用于构建实时数据管道和流应用程序。具有横向扩展,容错,wicked fast(变态快)等优点,并已在成千上万家公司运行。

简单说明什么是kafka

Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息中间件,只是粗略的讲解,目前kafka已经可以做更多的事情。

举个例子,生产者消费者,生产者生产鸡蛋,消费者消费鸡蛋,生产者生产一个鸡蛋,消费者就消费一个鸡蛋,假设消费者消费鸡蛋的时候噎住了(系统宕机了),生产者还在生产鸡蛋,那新生产的鸡蛋就丢失了。再比如生产者很强劲(大交易量的情况),生产者1秒钟生产100个鸡蛋,消费者1秒钟只能吃50个鸡蛋,那要不了一会,消费者就吃不消了(消息堵塞,最终导致系统超时),消费者拒绝再吃了,”鸡蛋“又丢失了,这个时候我们放个篮子在它们中间,生产出来的鸡蛋都放到篮子里,消费者去篮子里拿鸡蛋,这样鸡蛋就不会丢失了,都在篮子里,而这个篮子就是”kafka“。
鸡蛋其实就是“数据流”,系统之间的交互都是通过“数据流”来传输的(就是tcp、https什么的),也称为报文,也叫“消息”。
消息队列满了,其实就是篮子满了,”鸡蛋“ 放不下了,那赶紧多放几个篮子,其实就是kafka的扩容。
各位现在知道kafka是干什么的了吧,它就是那个"篮子"。

kafka名词解释

后面大家会看到一些关于kafka的名词,比如topic、producer、consumer、broker,我这边来简单说明一下。

  • producer:生产者,就是它来生产“鸡蛋”的。
  • consumer:消费者,生出的“鸡蛋”它来消费。
  • topic:你把它理解为标签,生产者每生产出来一个鸡蛋就贴上一个标签(topic),消费者可不是谁生产的“鸡蛋”都吃的,这样不同的生产者生产出来的“鸡蛋”,消费者就可以选择性的“吃”了。
  • broker:就是篮子了。

大家一定要学会抽象的去思考,上面只是属于业务的角度,如果从技术角度,topic标签实际就是队列,生产者把所有“鸡蛋(消息)”都放到对应的队列里了,消费者到指定的队列里取。

征集

如果你也想分享一些文章,例子。欢迎入群交流:14085484

注意:本群只与文章贡献者进行交流,不回答任何技术咨询,技术问答请到网站上提问,谢谢。

微信公众号

微信公众号,我会定期分享一些实用的操作源码。
screenshot

怎么样才算真正的学会kafka

最近面试发现,很多人用过kafka,但是没人了解原理,我们可是很注重原理的(PS:要不然怎么知道你真的会呢)。

  • kafka节点之间如何复制备份的?
  • kafka消息是否会丢失?为什么?
  • kafka最合理的配置是什么?
  • kafka的leader选举机制是什么?
  • kafka对硬件的配置有什么要求?
  • kafka的消息保证有几种方式?
  • kafka为什么会丢消息?

......你是否都答得上来?(欢迎大家补充!)

这些问题在下面的文章中都可以找到答案,kafka之所以有这么火热,建议各位一定要看一下。

如何学习kafka

还是那句话,学习任何技术,跟学骑自行车一样,不要一开始只关注它的具体细节是什么。先学着怎么骑,骑着骑着就了解大致的原理,这个时候在去看它的原理,会很轻松。

如果你在学习的过程中遇到什么问题,直接评论或者在kafka问题专区中提问。

章节与kafka官网对应一致

第一章:开始
第二章:API
第三章:kafka的配置
第四章:kafka如何设计的
第五章:kafka的实现
第六章:kafka的常用操作,如扩容,删除和增加topic。
第七章:硬件和操作系统
第八章:kafka监控
第九章:安全
第十章:kafka Connect
第十一章:kafka 流
第十二章:源码
第十三章:笔记(kafka命令大全

我们的内容会根据官网的更新,而定期更新。



您需要解锁本帖隐藏内容请: 点击这里
本帖隐藏的内容




上一条: 到头了!
下一条: Apache Kafka下载

  • 说白了kafka就是个缓冲区,缓存作用的。多年没有编程了,搁着那时候,直接在消费者侧做个缓冲机制就欧了,当然了,你们肯定说我造轮子。
    近一年来又重新接触了具体的技术,发现现在开发人员做项目,特别是IT信息类的项目,基本上都是各种工具、各种轮子堆砌,搞的特别臃肿,要快速查找key-value就上redis,要传文件就kafka,还有各种臃肿的框架。。。

    • 哈哈 兄台是为老技术人了。消息中间件现在也是好些,kafka的优势是持久化和性能,因为大数据人工智能需要离线处理。只是一方面

        • 是的,非常赞同,如今市场上大部分都是码农,做技术的少之又少,随便问几个技术原理问题,就答不上来,更别提如何实现了。

            哈哈哈,篮子。那个篮子如果满了是不是就宕机了

            再一次回顾

            那个篮子快可把我给逗坏了,妙,实在是妙。

            篮子,妙啊

            org.apache.kafka.common.KafkaException: Failed to construct kafka consumer    at org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:702)    at org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:557)    at org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:540)    at org.apache.spark.streaming.kafka010.Subscribe.onStart(ConsumerStrategy.scala:84)    at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.consumer(DirectKafkaInputDStream.scala:72)    at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.start(DirectKafkaInputDStream.scala:242)    at org.apache.spark.streaming.DStreamGraph$$anonfun$start$7.apply(DStreamGraph.scala:54)    at org.apache.spark.streaming.DStreamGraph$$anonfun$start$7.apply(DStreamGraph.scala:54)    at scala.collection.parallel.mutable.ParArray$ParArrayIterator.foreach_quick(ParArray.scala:143)    at scala.collection.parallel.mutable.ParArray$ParArrayIterator.foreach(ParArray.scala:136)    at scala.collection.parallel.ParIterableLike$Foreach.leaf(ParIterableLike.scala:972)    at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply$mcV$sp(Tasks.scala:49)    at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:48)    at scala.collection.parallel.Task$$anonfun$tryLeaf$1.apply(Tasks.scala:48)    at scala.collection.parallel.Task$class.tryLeaf(Tasks.scala:51)    at scala.collection.parallel.ParIterableLike$Foreach.tryLeaf(ParIterableLike.scala:969)    at scala.collection.parallel.AdaptiveWorkStealingTasks$WrappedTask$class.compute(Tasks.scala:152)    at scala.collection.parallel.AdaptiveWorkStealingForkJoinTasks$WrappedTask.compute(Tasks.scala:443)    at scala.concurrent.forkjoin.RecursiveAction.exec(RecursiveAction.java:160)    at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)    at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)    at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)    at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)    at ... run in separate thread using org.apache.spark.util.ThreadUtils ... ()    at org.apache.spark.streaming.StreamingContext.liftedTree1$1(StreamingContext.scala:578)    at org.apache.spark.streaming.StreamingContext.start(StreamingContext.scala:572)    at org.apache.spark.streaming.api.java.JavaStreamingContext.start(JavaStreamingContext.scala:556)    at com.datatrans.atmptrans.atmp.AtmpTrans.main(AtmpTrans.java:93)    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)    at java.lang.reflect.Method.invoke(Method.java:498)    at org.apache.spark.deploy.worker.DriverWrapper$.main(DriverWrapper.scala:58)    at org.apache.spark.deploy.worker.DriverWrapper.main(DriverWrapper.scala)Caused by: org.apache.kafka.common.KafkaException: java.lang.SecurityException: java.io.IOException: ÅäÖôíÎó:     ÐÐ 5: ӦΪ [option key]    at org.apache.kafka.common.network.SaslChannelBuilder.configure(SaslChannelBuilder.java:86)    at org.apache.kafka.common.network.ChannelBuilders.create(ChannelBuilders.java:70)
            

            我的sparkstreaming程序在认证kafka的时候报以上错误,就是说配置文件错误,第五行应该是[option key],请问什么原因

            请问下如何通过kafka实现延迟队列呢

            请问经过大数据处理的数据,我需要发布到kafka上,有哪些关键字段是必须的呢?

            大神,我现在是上游生产100个topic,每个topic一个分区,现在用Java程序启动100个消费者,每个消费者对应1个topic,但是有时候poll 拉不到数据,while true一直空转,过10几秒就可以拉到数据,请问这个大概是什么原因?

            • kafka是主动拉取消息的,所以一直长轮询拉取的。你可以确认下是消息抵达kafka慢,还是你的程序共用了一条长连接,导致连接频繁切换。

                • 我是监控程序,前面还有一个消费者,消费后的存储commitoffset值,我是读取这个commitOffset,再从Kafka消费一次。获取部分字段用于监控。
                  这样监控程序消费时,消息已经抵达Kakfa。

                    数据量大的时候,消费者没有接收到消息,提供者日志显示这个?请问这个应该怎么解决怎么解决?
                    2019-03-08 18:52:54,795 INFO KafkaProducer:1136 - [Producer clientId=producer-1] Closing the Kafka producer with timeoutMillis = 9223372036854775807 ms.

                    • 这个目前好像没有办法提供,看了日志也是没有错误信息,发送少量数据就没有问题,但是发送大量数据就是这个样子