用于图像分类的HDFS图像数据帧

2024-07-05 08:31:17 发布

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试使用Python和Spark编写一个图像分类算法。
我遵循this教程，该教程摘自官方数据库documentation，在本地运行时效果非常好。在

我现在的问题是，在集群上改变算法，我必须从HDFS上的两个文件夹以.jpg格式加载图像，而且我找不到一种在示例中本地创建数据帧的方法。在

我在找一个替代代码：

from sparkdl import readImages
jobs_df = readImages(img_dir + "/jobs").withColumn("label", lit(1))

Tags：图像文件夹算法数据库官方 documentation jobs 分类

1条回答

网友

1楼 · 发布于 2024-07-05 08:31:17

它应该和从本地读取文件差不多。在

下面是库中的实现。它在内部使用binaryFiles api来加载二进制文件。API文档（binaryFiles）说它也支持Hadoop文件系统。在

 rdd = sc.binaryFiles(path, minPartitions=numPartitions).repartition(numPartitions)

希望这有帮助。在