spark Streaming的Direct Approach，设置checkpoint在HDFS中的文件个数会随着启动次数增加吗？

Y。G。D 发表于: 2019-11-11 最后更新时间: 2019-11-11 16:18:02 2,404 游览

spark Streaming的Direct Approach，设置checkpoint于HDFS中，checkpoint是一个topic维护一个还是一个spark任务维护一个呢，文件个数会随着启动次数增加吗？

kafka

发表于 2019-11-11

Y。G。D

添加评论

文件不仅仅只是随着启动而增加哦，一个任务维护一个
可以看看这篇文章：https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80553558

回答于 6年前

雪花

Y。G。D -> 雪花 6年前

您好，感谢您的答复，您贴的链接我看了，感觉这篇文章指的是的spark实际处理的文件在HDFS中，设置checkpoint不是用来记录偏移量吗？我看启动之后checkpoint文件个数维持在10个，更新时间与sparkStreamingContext中设置的时间相同，新来一个会删除旧的，现在不太明确如果同一个任务使用同一个topic，修改代码后重新启动，kafka会不会维护一套新的checkpoint文件来记录偏移量。

雪花 -> Y。G。D 6年前

可以验证一下：

1、先到kafka集群中查出所有的消费者，找到对应的消费者组
消费者列表查询

bin/kafka-consumer-groups.sh --new-consumer --bootstrap-server localhost:9092 --list

2、消费消费组的内容，观察里面的内容

bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning --consumer.config config/consumer.properties

另外，列出kafka中所有的topic，判断是否有新的变化

bin/kafka-topics.sh --describe --zookeeper

你的答案

查看kafka相关的其他问题或提一个您自己的问题。

提问

找不到想要的答案？提一个您自己的问题。

spark Streaming的Direct Approach，设置checkpoint在HDFS中的文件个数会随着启动次数增加吗？

你的答案

昵称