Kafka挂了,系统logger在附近时间显示out of memory

一如乞人不需要形象 发表于: 2022-05-10   最后更新时间: 2022-05-11 10:42:54   240 游览

1、kafka五个cluster,每次都是那个cluster挂掉
2、版本v2.5, server.log里无任何error,KAFKA_HEAP_OPTS=-Xms8G -Xmx8G
3、linux 系统log里显示如下:

May  9 11:45:09  kernel: [22427824.708080] Out of memory: Kill process 10689 (java) score 436 or sacrifice child
May  9 11:45:09  kernel: [22427824.710126] Killed process 10689 (java), UID 0, total-vm:35007216kB, anon-rss:6585580kB, file-rss:0kB, shmem-rss:0kB
May  9 11:45:09  systemd[1]: Created slice User Slice of root.
May  9 11:45:09  systemd[1]: Started Session 81916 of user root.
May  9 11:45:12  sh[10688]: /bin/sh: line 1: 10689 Killed                  /opt/kafka/bin/kafka-server-start.sh /opt/kafka/config/server.properties > /dev/null 2>&1
May  9 11:45:12  systemd[1]: kafka.service: main process exited, code=exited, status=137/n/a

4、还有一个很奇怪的是,五台cluster其中一台挂了,整个集群就不work了,不知道什么原因,在排查是否有topic replica等于5,这种情况会导致挂了一台就不work吗?

发表于 2022-05-10

kafka OOM问题

造成OOM的主要原因是调整了系统默认的最大数,比如:message.max.bytessocket.request.max.bytes等。

更多参考:Kafka Broker配置,搜索关键字max

所以相应的JVM也要增加。你出现oom,还要继续加大,说明没有满足阈值。

kafka高可用

五台cluster其中一台挂了,整个集群就不work了,很可能造成这个原因是存储消费者offset的topic是单副本,通过以下命令查询:

bin/kafka-topics.sh --bootstrap-server localhost:9092 --topic __consumer_offsets --describe

如果是单副本,扩容该主题即可。

还真是,茅塞顿开,谢谢

你的答案

查看kafka相关的其他问题或提一个您自己的问题
提问