您好。做了如下一些调整:
比较遗憾,上述操作还是没能解决kafka集群节点假死的现象,但是有所缓解,目前不影响生产者写入数据。
近两天发现个问题,由于使用zookeeper的服务比较多,包括kafka、solr、hadoop、spark、storm等。
运行一段时间后,zookeeper就会持续报超时等问题,重启后就恢复。
猜想,会不会是因为使用zookeeper的服务较多,某个服务GC时间较长,使zookeeper不稳定,从而导致kafka节点注册自行消失。
请问下,从哪些日志内容或异常能看出问题来?有没有什么排查手段
我设置的机器别名格式为:dc-kafka-N ,配置的也是这个,我看启动kafka的时候,获取的host.name 如下:
获取的是阿里云自定义的主机名,这个主机名只在本机hosts里配置了
[2022-06-25 09:19:31,965] INFO Client environment:host.name=iZ23p29i***** (org.apache.zookeeper.ZooKeeper)
[2022-06-25 09:19:31,965] INFO Client environment:java.version=1.8.0_321 (org.apache.zookeeper.ZooKeeper)
今天又发现个现象。zookeeper三个节点其中一个节点挂了,通过可视化工具客户端无法访问,但是在该节点服务器通过./zkCli.sh status 查看正常,并且可以进去命令行查看数据。