0.8.2.1版本的kafkaclient，生产消息，获取metadata超时，超时时间60000 ms

匣与桔 发表于: 2019-11-11 最后更新时间: 2019-11-12 00:40:58 2,618 游览

发送消息到kafka，获取metadata超时，一直处于wait状态，端口是通的，6台集群。

我有两个线程发到不同topic消息，有时重启后只有一个topic可以正常发送，另一个则超时，重启后有时会恢复正常，有时会反过来（超时的恢复正常，正常的发送超时）。

 代码不方便贴出来，在公司电脑，代码无法copy出来。

报错信息：没有调发送后的回调函数，看ThreadDump是获取Medata超时

网上说的都是需要改配置，我这个有时可以正常发送，配置应该没问题吧

还请帮忙给个排查思路

kafka

发表于 2019-11-11

匣与桔

添加评论

1、该集群是刚刚搭建好在测试，还是已经运行很久新出的问题。
2、需要描述一下部署环境
3、挨个telnet 9092，确保每个都是通的。
4、防火墙
该问题就是超时问题，针对环境之间的网络排查，准没错

回答于 6年前

半兽人

匣与桔 -> 半兽人 6年前

1.集群是公司运维搭建的，很多应用都在用，集群应该没问题的。
2.部署环境：应用集群，同在一个机房，只有个别机器会有这个问题。
3.出现问题的机器进行telnet 9092，端口都是通的。
4.防火墙肯定开墙的。
5.还有一种情况，例如，我有一台机器在昨天是可以正常生产消息的，今天就一直更新Metadata超时，而别的机器是可以正常发送的。

半兽人 -> 匣与桔 6年前

如果通过重启有故障的发送程序恢复，先排除集群故障。
1、个别机器有问题，是轮着来，今天这个明天那个，还是固定在某台？
2、整个集群收到的发送量有多大，带宽是否接近打满？
3、检查

检查对应的topic的分区是否正常。

 bin/kafka-topics.sh --describe --zookeeper

检查消费者组中的使用情况

 bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning  --consumer.config config/consumer.properties

匣与桔 -> 半兽人 6年前

1.目前来看是机器是不固定，可能是正常运行着就突然出现异常，有时候重启会解决问题。
2.现在还是实验性阶段，所以发送量不大。
3.有4个分区三个副本，观察也是无问题的。

半兽人 -> 匣与桔 6年前

如果系统分区都是正常的，接收的消息也是正常的，那你可以考虑用kafka自带的压测工具压一下，定位程序代码的问题。

匣与桔 -> 半兽人 6年前

Discovered group coordinator ip:9092 (id: 2147483643 rack: null)
Revoking previously assigned partitions []
看消费者日志有打印出这个，这个会有影响嘛

半兽人 -> 匣与桔 6年前

偶尔打没问题，轮询打，就是zk版本引起的问题了。
zk推荐版本3.4.6或3.4.9

匣与桔 -> 半兽人 6年前

好的，感谢回答~ 谢谢

匣与桔 -> 半兽人 6年前

你好，我想再咨询一个问题。
offset提交超时，日志如下。
情况：六台kafka机器(ip1,ip2,ip3,ip4,ip5,ip6)，只有一台kafka【ip1】会出现这个情况，这个是kafka服务器的问题吗，有找运维咨询，他说配置都是一样的。
Discovered group coordinator ip1:9092 (id: 2147483643 rack: null)
Group coordinator ip1:9092 (id: 2147483643 rack: null) is unavailable or invalid, will attempt rediscovery
Offset commit failed on partition eventPrd-0 at offset 979460: The request timed out.

你的答案

查看kafka相关的其他问题或提一个您自己的问题。

提问

找不到想要的答案？提一个您自己的问题。

0.8.2.1版本的kafkaclient，生产消息，获取metadata超时，超时时间60000 ms

你的答案

昵称