我知道我可以使用下面的命令处理所有带有Spark的文本文件。在
alltexts = sc.textFile("hdfs://mydir/*", 1584)
relevant = alltexts.mapPartitions(lambda x: my_func(x)).collect()
但是,如何处理包含压缩numpy数组的目录(格式为.npz)?在
编辑:
我设法得到了一个文件列表并使用
^{pr2}$但是,当我尝试使用np.load()
加载my_func()
中的numpy文件时,我得到了以下错误。有什么建议吗?在
IOError: [Errno 2] No such file or directory: u'hdfs://.../my_dir/file.npy`
目前没有回答
相关问题 更多 >
编程相关推荐