zookeeper运行正常的情况下,无缘无故的挂掉,这是怎么回事??

想喝好几罐八宝粥的男孩 发表于: 2020-06-30   最后更新时间: 2020-06-30 15:04:50   3,022 游览

zookeeper集群为3台,版本为3.4.6,运行正常的情况下,有一个follower突然挂掉,毫无征兆的挂掉,现在排查找不到具体原因,希望有遇到过的解答一下:

以下是我排查的记录过程:

1、由于服务器都是双网卡配置的,怀疑网卡突然挂掉,连接不上导致超时,但是排查linux系统下的网络日志并未发现网络有断网或者网卡切换的情况;

2、采用netstat -ae发现某一台zookeeper服务器所在的处于等待状态的进程为521个,其他服务器均在90左右;

3、服务器分别安装在两个交换机上,网关不同,在第一次测试的时候延时较大,但第二、三、四次后延时在3-4毫秒左右,排除网络延时的情况;

4、服务器的防火墙全部关闭,这个检查过;

5、zookeeper的参数采用默认参数,服务器之间通讯再用如下设置:

server.0=178.19.56.142:4000:4002
server.1=178.19.56.143:4000:4002
server.2=178.19.56.144:4000:4002

现在排查后还是未发现是什么原因导致的某一个zookeeper节点突然挂掉,希望大神可以帮一下,谢谢,把3台zookeeper所在的日志截图一下,麻烦请帮忙看一下。

26-follwer节点:

screenshot

27-follwer节点:

screenshot

75-leader节点:

screenshot

发表于 2020-06-30
添加评论

zk日志我看没什么问题。
你关注一下系统日志,找找有没有强杀的日志,比如zk内存超了,给强杀了。

我们系统内存都是512G的144核,万兆网络,20T硬盘,看那些系统日志呀?我观察了一下网络日志,没报错,还可以查看哪些系统日志?

就是突然的zookeeper挂掉了,那个时间段,没有执行过强制kill杀死zookeeper进程

这种情况真没遇到过了。
目前我所知的是,当在系统进行强杀的情况下,zk是来不及打error这种级别的日志的。
如果是zk自己崩溃,理论上是会有日志打的。

那这种强制杀死的记录会在什么地方进行记录呢?我想看一下这个日志,麻烦说一下具体在linux系统下的什么路径下可以查看吧?

你的答案

查看kafka相关的其他问题或提一个您自己的问题