kafka故障重启后,isr副本失效,所有主题基本上undder replicated均大于0,这是什么鬼?

想喝好几罐八宝粥的男孩 发表于: 2020-06-18   最后更新时间: 2020-06-19  

在上周kafka集群有个节点挂了后,自动重启后,现在观察到isr副本永远处于失效中,有的leader还出现了倾斜。

  1. 现在想问的是有什么好的方法可以让失效的副本跟上leader?(以下截图中)

  2. 由于数据量小,我现在有9台机器,每个主题建立3个分区,3个副本的话,这样对kafka集群会有什么影响吗?

  3. 现在有9台机器(512G,144核,20T),每台机器有4000个分区左右,这么多的分区会对机器有啥影响吗?

screenshot

希望大佬解答一下,xiexie!



您需要解锁本帖隐藏内容请: 点击这里
本帖隐藏的内容




上一条: 0.11.0.0版本的kafka使用sasl/scram认证(单独搭建的zk集群且zk未进行认证配置),kafka集群能启动,但一直warn日志,求大神帮忙解决
下一条: kafka异常问题

  • 你新启动的kafka节点正常了吗?该broker有leader么?

    1. kafka会自动同步。 https://www.orchome.com/33
    2. kafka之间全部是长连接交互的,你3个副本3个分区,集群之间就是3x3的长连接,客户端连接还不算。你数量太大,分区可以考虑主备就可以了。
    3. 同2,一台4000个分区,但是总的socket接收量是相同的,你现在量不大,没超过限制,所以你的jvm和socket.request.max.bytes都需要注意。还有linux系统的openfile等防止超过系统限制。

    更多可参考:https://www.orchome.com/472

    • 昨天才发现三个zookeeper,有个挂了无法用命令查看到运行运行状态,但还是在后台存在这个zookeeper进程,kafka服务重启后,一直没有自动同步上;截图如上所示的under replaicas一直大于0,即使现在kafka集群正常,现在没有同步上,不知道现在到底啥问题,klafka集群能正常发送和消费。