如何在Hadoop中读取文件名和字数？

2024-09-30 05:18:54 发布

您现在位置：Python中文网/ 问答频道 /正文

9961

网友

男 | 程序猿一只，喜欢编程写python代码。

我试图在python的dumbo包的帮助下从hadoop获取序列文件名。但它给了我某种标识符。如何将其映射到文件名？在

下面是我在hadoop系统上获取文件名的步骤：

步骤1）生成序列文件

命令：

hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-with-dependencies.jar com.endgame.binarypig.util.BuildSequenceFileFromDir /mnt/Clustering/Checking/text_files text_files_seq

步骤2）通过hadoop对序列文件运行python脚本

命令：

^{pr2}$

步骤3）在本地目录中获取输出

命令：

^{3}$

小飞象地图在哪里_红色.py是

#!/usr/bin/env python

def mapper(key, value):
    yield key, 1

def reducer(key, values):
    yield key, sum(values)

if __name__ == "__main__":
    import dumbo
    dumbo.run(mapper, reducer)

请帮助我知道如何获取文件名。如果他们是另一个python包，可以让我这样做，请让我知道。。在

Tags：文件 key text 命令 hadoop 文件名步骤序列

1条回答

网友

1楼 · 发布于 2024-09-30 05:18:54

最后得到了将序列文件中的标识符映射到实际文件的提示。在

标识符是目录中文件的MD5。

如何在Hadoop中读取文件名和字数？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Hadoop中读取文件名和字数？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >