hadoop, python, subprocess失败,代码127

2024-06-29 01:01:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我尝试用mapreduce运行非常简单的任务。在

在映射器.py公司名称:

#!/usr/bin/env python
import sys
for line in sys.stdin:
    print line

我的txt文件:

^{pr2}$

运行作业的命令行:

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper /home/cloudera/Documents/map.py \
-file /home/cloudera/Documents/map.py

错误:

INFO mapreduce.Job: Task Id : attempt_1490617885665_0008_m_000001_0, Status : FAILED
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 127
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538)
    at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61)
    at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

如何修复此问题并运行代码? 当我使用cat /home/cloudera/Documents/test.txt | python /home/cloudera/Documents/map.py时,它工作得很好

!!!!!更新

我的*.py文件有问题。我已经从github'tomwhitehadoop book'复制了文件,一切正常。在

但我不明白是什么原因。这不是权限和字符集(如果我没有错的话)。还能是什么?在


Tags: runpyorghadoophomeapachejavaat
3条回答

-mapper参数中,您应该设置命令,以便在集群节点上运行。所以没有/home/cloudera/Documents/地图.py在那里归档。 使用-files选项传递的文件被放在工作目录中,所以您可以用这种方式简单地使用它:./map.py

我不记得对这个文件设置了什么权限,所以如果没有执行权限,请将其用作python map.py

所以全部命令是

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper "python map.py" \
-file /home/cloudera/Documents/map.py

我也面临同样的问题。在

问题: 在Windows环境中创建python文件时,新行字符是CRLF。 我的hadoop运行在Linux上,它将换行符理解为LF

enter image description here

解决方案:CRLF更改为LF后,步骤成功运行。在

enter image description here

你的错误映射器.py或者减速器示例:

  1. 未在文件顶部使用#!/usr/bin/env python。在
  2. python代码中的语法或逻辑错误。(例如print在python2和python3中有不同的语法。)

相关问题 更多 >