java saveAsTextFile性能改进
我使用了以下格式的数据源,最高可达1500000
1
2
3
4
5
..
1500000
我已经使用了下面的代码片段
JavaRDD<String> dataCollection=ctx.textFile("hdfs://yarncluster/Input/datasource");
JavaPairRDD<String,String> rdd=dataCollection.cartesian(dataCollection);
rdd.saveAsTextFile("hdfs://yarncluster/Ouput");
在集群中保存数据需要更多的时间。 有没有其他方法可以提高性能
# 1 楼答案
您可以通过使用大量分区调用重新分区来提高并行度