pyspark-一个RDD和一个输出fi中有多个输入文件

1条回答

网友

1楼 · 发布于 2024-05-02 10:54:11

这将加载与模式匹配的所有文件。

rdd = sc.textFile("file:///path/*.txt")

现在，您不需要进行任何联合。你只有一个RDD。

来问你的问题-why are you getting many output files。输出文件的数量取决于RDD中partitions的数量。运行字计数逻辑时，生成的RDD可以有多个分区。如果要将RDD保存为单个文件，请使用coalesce或repartition来只有一个分区。

下面的代码有效，取自Examples。

rdd = sc.textFile("file:///path/*.txt")
counts = rdd.flatMap(lambda line: line.split(" ")) \
...              .map(lambda word: (word, 1)) \
...              .reduceByKey(lambda a, b: a + b)

counts.coalesce(1).saveAsTextFile("res.csv")

编程相关推荐

在Java/Selenium中水平滚动的问题
java如何修复setContentView和super。是否使用类和子类创建方法？
java显示来自计算机的图像
java如何将测试类包括到Maven jar中并执行它们？
JAVA中的货币金额和票据优化算法
java类加载代码，即使用Eclipse而不使用LISA
Java Reactor中的异常：doOnError（）或doOnException（）？
java如何为我的国际象棋游戏添加倒计时？
weblogic 11g和weblogic 12c上的java jaxws日期时间解析差异
未在Android应用程序中使用SQLite创建java表

相关问题更多 >

编程相关推荐

热门问题

热门文章

pyspark-一个RDD和一个输出fi中有多个输入文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >