PySpark在fold中处理所有numy文件

2024-07-05 14:46:00 发布

男 | 程序猿一只，喜欢编程写python代码。

我知道我可以使用下面的命令处理所有带有Spark的文本文件。在

alltexts = sc.textFile("hdfs://mydir/*", 1584)
relevant = alltexts.mapPartitions(lambda x: my_func(x)).collect()

但是，如何处理包含压缩numpy数组的目录（格式为.npz）？在

编辑：

我设法得到了一个文件列表并使用

^{pr2}$

但是，当我尝试使用np.load()加载my_func()中的numpy文件时，我得到了以下错误。有什么建议吗？在

IOError: [Errno 2] No such file or directory: u'hdfs://.../my_dir/file.npy`

Tags：文件命令 numpy my hdfs spark file func

0条回答

目前没有回答