用于图像分类的HDFS图像数据帧

2024-07-05 08:31:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试使用Python和Spark编写一个图像分类算法。
我遵循this教程,该教程摘自官方数据库documentation,在本地运行时效果非常好。在

我现在的问题是,在集群上改变算法,我必须从HDFS上的两个文件夹以.jpg格式加载图像,而且我找不到一种在示例中本地创建数据帧的方法。在

我在找一个替代代码:

from sparkdl import readImages
jobs_df = readImages(img_dir + "/jobs").withColumn("label", lit(1))

Tags: 图像文件夹算法数据库官方documentationjobs分类
1条回答
网友
1楼 · 发布于 2024-07-05 08:31:17

它应该和从本地读取文件差不多。在

下面是库中的实现。它在内部使用binaryFiles api来加载二进制文件。API文档(binaryFiles)说它也支持Hadoop文件系统。在

 rdd = sc.binaryFiles(path, minPartitions=numPartitions).repartition(numPartitions) 

希望这有帮助。在

相关问题 更多 >