擅长:python、mysql、java
<p>我找到了解决问题的方法:</p>
<ol>
<li>您需要在jobflow参数中指定hadoop版本0.20</li>
<li>您需要使用mahout-core-0.5-SNAPSHOT运行JAR步骤-作业.jar,而不是使用mahout-core-0.5-快照.jar在</li>
<li>如果作业流中有其他流式处理步骤,则需要修复boto中的错误:
<ol>
<li>打开boto/emr/步骤.py在</li>
<li>将第138行改为“return'/home/hadoop/contrib/streaming/hadoop”-流媒体.jar'“</li>
<li>保存并重新安装boto</li>
</ol></li>
</ol>
<p>以下是如何调用job\u flow函数以与mahout一起运行:</p>
<p><code>jobid = emr_conn.run_jobflow(name = name,
log_uri = 's3n://'+ main_bucket_name +'/emr-logging/',
enable_debugging=1,
hadoop_version='0.20',
steps=[step1,step2])</code></p>