如何将spark流媒体保存到本地pc和hdfs？

from operator import add import sys from pyspark.streaming import StreamingContext from pyspark.streaming.kafka import KafkaUtils ## Constants APP_NAME = "PythonStreamingDirectKafkaWordCount" ##OTHER FUNCTIONS/CLASSES def main(): sc = SparkContext(appName="PythonStreamingDirectKafkaWordCount") ssc = StreamingContext(sc, 2) brokers, topic = sys.argv[1:] kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers}) lines = kvs.map(lambda x: x[1]) counts = lines.flatMap(lambda line: line.split(" ")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a+b) def process(RDD): #RDD.pprint() kvs2=RDD.map() kvs2.saveAsTextFiles('path') #kvs.foreachRDD(lambda x: process(x)) #kvs1=kvs.map(lambda x: x) kvs.pprint() kvs.saveAsTextFiles('path','txt') ssc.start() ssc.awaitTermination() if __name__ == "__main__": main()

1条回答

网友

1楼 · 发布于 2024-10-01 04:54:35

在这一行：

 kvs.saveAsTextFiles('path','txt')

您存储的是原始流，而不是具有元组的流。而是从计数中存储：

 counts.saveAsTextFiles('path','txt')

请注意保存在“path”中提供的目录下的工作节点上的文件。你知道吗

pySpark API不支持保存到HDFS，因为对于最新版本，其他语言确实有saveAsHadoopFiles。链接到doc。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章