我正在尝试使用Python和Spark编写一个图像分类算法。
我遵循this教程,该教程摘自官方数据库documentation,在本地运行时效果非常好。在
我现在的问题是,在集群上改变算法,我必须从HDFS上的两个文件夹以.jpg
格式加载图像,而且我找不到一种在示例中本地创建数据帧的方法。在
我在找一个替代代码:
from sparkdl import readImages
jobs_df = readImages(img_dir + "/jobs").withColumn("label", lit(1))
它应该和从本地读取文件差不多。在
下面是库中的实现。它在内部使用binaryFiles api来加载二进制文件。API文档(binaryFiles)说它也支持Hadoop文件系统。在
希望这有帮助。在
相关问题 更多 >
编程相关推荐