Hadoop处理大量图像文件的最佳方式

2024-10-02 10:20:15 发布

您现在位置:Python中文网/ 问答频道 /正文

在Hadoop中,我成功地用两种方式处理多个图像文件:

  1. 使用Java使用序列文件将图像缝合在一起。这需要一个指向所有文件位置的文本文件。在
  2. 使用Python和Hadoop流将文件缓存到每个节点,使用-cacheArchive以焦油gz档案文件。在

我觉得这两种方法都有点过时。假设我有一百万个文件,我不想创建文本文件或压缩这么多文件。有没有办法让我的映射器指向一个hdfs文件夹,让它在运行时读取该文件夹?我知道可以使用输入,但这是文本文件。还是我错过了什么?任何建议都是非常感谢的。在


Tags: 文件图像文件夹hadoop节点图像文件方式序列

热门问题