spark Streaming的Direct Approach,设置checkpoint在HDFS中的文件个数会随着启动次数增加吗?

Y。G。D 发表于: 2019-11-11   最后更新时间: 2019-11-11  

spark Streaming的Direct Approach,设置checkpoint于HDFS中,checkpoint是一个topic维护一个还是一个spark任务维护一个呢,文件个数会随着启动次数增加吗?



您需要解锁本帖隐藏内容请: 点击这里
本帖隐藏的内容




上一条: 0.8.2.1版本的kafkaclient,生产消息,获取metadata超时,超时时间60000 ms
下一条: Kafka集群是有必要做raid5?

  • 文件不仅仅只是随着启动而增加哦,一个任务维护一个
    可以看看这篇文章:https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80553558

    • 您好,感谢您的答复,您贴的链接我看了,感觉这篇文章指的是的spark实际处理的文件在HDFS中,设置checkpoint不是用来记录偏移量吗?我看启动之后checkpoint文件个数维持在10个,更新时间与sparkStreamingContext中设置的时间相同,新来一个会删除旧的,现在不太明确如果同一个任务使用同一个topic,修改代码后重新启动,kafka会不会维护一套新的checkpoint文件来记录偏移量。

        • 可以验证一下:

          1、先到kafka集群中查出所有的消费者,找到对应的消费者组
          消费者列表查询

          bin/kafka-consumer-groups.sh --new-consumer --bootstrap-server localhost:9092 --list
          

          2、消费消费组的内容,观察里面的内容

          bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning --consumer.config config/consumer.properties
          

          另外,列出kafka中所有的topic,判断是否有新的变化

          bin/kafka-topics.sh --describe --zookeeper