使用Spark-Python中的map操作弹性分布式数据集 - 问答 - Python中文网

使用Spark-Python中的map操作弹性分布式数据集

2024-07-06 18:56:57 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我使用numpy的arange创建了一个数组，并希望使用spark.sparkContext.parallelize将该数组转换为RDD。你知道吗

np_array = [np.arange(0,300)]
rdd_numbers = spark.sparkContext.parallelize(np_array)
times_twelve = rdd_numbers.map(lambda rdd_numbers: rdd_numbers * 12)

我现在想做一个RDD，叫做乘以12，基本上是RDD中的每个数乘以12。由于某些原因，timesÔ12无法正确打印，有什么想法我可能会出错吗？你知道吗

Tags： lambda numpy map np 数组 array spark rdd

1条回答

网友

1楼 · 发布于 2024-07-06 18:56:57

阅读评论，我可以说Shagun Sodhani是正确的，他说：

print(anyrdd) will not print the content of the RDD

如果您想在屏幕上看到RDD的内容，可以使用以下命令（建议仅用于小型RDD）：

print times_twelve.take(times_twelve.count())

您可以查看here有关Spark支持的这些操作的文档。他说

相关问题更多 >

编程相关推荐

热门问题

热门文章