如何在Hadoop中读取文件名和字数?

2024-09-30 05:18:54 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图在python的dumbo包的帮助下从hadoop获取序列文件名。 但它给了我某种标识符。如何将其映射到文件名?在

下面是我在hadoop系统上获取文件名的步骤:

步骤1)生成序列文件

命令:

hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-with-dependencies.jar com.endgame.binarypig.util.BuildSequenceFileFromDir /mnt/Clustering/Checking/text_files text_files_seq

步骤2)通过hadoop对序列文件运行python脚本

命令:

^{pr2}$

步骤3)在本地目录中获取输出

命令:

^{3}$

小飞象地图在哪里_红色.py是

#!/usr/bin/env python

def mapper(key, value):
    yield key, 1

def reducer(key, values):
    yield key, sum(values)

if __name__ == "__main__":
    import dumbo
    dumbo.run(mapper, reducer)

请帮助我知道如何获取文件名。 如果他们是另一个python包,可以让我这样做,请让我知道。。在


Tags: 文件keytext命令hadoop文件名步骤序列

热门问题