我试图在python的dumbo包的帮助下从hadoop获取序列文件名。 但它给了我某种标识符。如何将其映射到文件名?在
下面是我在hadoop系统上获取文件名的步骤:
步骤1)生成序列文件
命令:
hadoop jar /mnt/Clustering/Checking/AllJars/binarypig-1.0-SNAPSHOT-jar-with-dependencies.jar com.endgame.binarypig.util.BuildSequenceFileFromDir /mnt/Clustering/Checking/text_files text_files_seq
步骤2)通过hadoop对序列文件运行python脚本
命令:
^{pr2}$步骤3)在本地目录中获取输出
命令:
^{3}$小飞象地图在哪里_红色.py是
#!/usr/bin/env python
def mapper(key, value):
yield key, 1
def reducer(key, values):
yield key, sum(values)
if __name__ == "__main__":
import dumbo
dumbo.run(mapper, reducer)
请帮助我知道如何获取文件名。 如果他们是另一个python包,可以让我这样做,请让我知道。。在
最后得到了将序列文件中的标识符映射到实际文件的提示。在
标识符是目录中文件的MD5。
相关问题 更多 >
编程相关推荐