无法使用AW上的流式python mapreduce通过stdin读取Hadoop序列文件问题的回答

无法使用AW上的流式python mapreduce通过stdin读取Hadoop序列文件

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我试图在亚马逊的弹性地图reduce上运行一个简单的单词计数map reduce作业，但是输出的结果是胡言乱语。输入文件是<a href="http://commoncrawl.org/" rel="nofollow">common crawl</a>文件的一部分，这些文件是hadoop序列文件。该文件应该是从已爬网的网页中提取的文本（从html中剥离）。在 我的AWS Elastic MapReduce步骤如下所示： <pre><code>Mapper: s3://com.gpanterov.scripts/mapper.py Reducer: s3://com.gpanterov.scripts/reducer.py Input S3 location: s3://aws-public<a href="https://www.cnpython.com/pypi/dataset" class="inner-link">dataset</a>s/common-crawl/parse-output/segment/1341690169105/textData-00112 Output S3 location: s3://com.gpanterov.output/job3/ </code></pre> 作业运行成功，但是输出是杂乱无章的。只有奇怪的符号，根本没有文字。我猜这是因为hadoop序列文件不能通过标准读取？但是，如何在这样的文件上运行mr作业？我们必须先把序列文件转换成文本文件吗？在 第00000部分的前几行如下所示： ^{pr2}$ 这是我的地图： <pre><code>#!/usr/bin/env python import sys for line in sys.stdin: words = line.split() for word in words: print word + "\t" + str(1) </code></pre> 还有我的减速机： <pre><code>#!/usr/bin/env python import sys def output(previous_key, total): if previous_key != None: print previous_key + " was found " + str(total) + " times" previous_key = None total = 0 for line in sys.stdin: key, value = line.split("\t", 1) if key != previous_key: output(previous_key, total) previous_key = key total = 0 total += int(value) output(previous_key, total) </code></pre> 输入文件没有问题。在本地计算机上，我运行<code>hadoop fs -text textData-00112 | less</code>，这将从网页返回纯文本。任何关于如何在这些类型的输入文件（常见的爬网hadoop序列文件）上运行python流式mapreduce作业的输入都是非常受欢迎的。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

无法使用AW上的流式python mapreduce通过stdin读取Hadoop序列文件

1 个回答

相关Python问题