我的boto弹性mapreduce jar作业流参数有什么问题？

step2 = JarStep(name='Find similiar items', jar='s3n://recommendertest/mahout-core/mahout-core-0.5-SNAPSHOT.jar', main_class='org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob', step_args=['s3n://bucket/output/' + run_id + '/aggregate_watched/', 's3n://bucket/output/' + run_id + '/similiar_items/', 'SIMILARITY_PEARSON_CORRELATION' ])

2011-01-24T22:18:54.491Z INFO Executing /usr/lib/jvm/java-6-sun/bin/java \ -cp /home/hadoop/conf:/usr/lib/jvm/java-6-sun/lib/tools.jar:/home/hadoop:/home/hadoop \ /hadoop-0.18-core.jar:/home/hadoop/hadoop-0.18-tools.jar:/home/hadoop/lib/*:/home/hadoop/lib/jetty-ext/* \ -Xmx1000m \ -Dhadoop.log.dir=/mnt/var/log/hadoop/steps/3 \ -Dhadoop.log.file=syslog \ -Dhadoop.home.dir=/home/hadoop \ -Dhadoop.id.str=hadoop \ -Dhadoop.root.logger=INFO,DRFA \ -Djava.io.tmpdir=/mnt/var/lib/hadoop/steps/3/tmp \ -Djava.library.path=/home/hadoop/lib/native/Linux-i386-32 \ org.apache.hadoop.mapred.JobShell \ /mnt/var/lib/hadoop/steps/3/mahout-core-0.5-SNAPSHOT.jar \ org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob \ s3n://..../output/job_2011-01-24_23:09:29/aggregate_watched/ \ s3n://..../output/job_2011-01-24_23:09:29/similiar_items/ \ SIMILARITY_PEARSON_CORRELATION

3条回答

网友

1楼 · 编辑于 2024-09-20 22:54:27

我找到了解决问题的方法：

您需要在jobflow参数中指定hadoop版本0.20
您需要使用mahout-core-0.5-SNAPSHOT运行JAR步骤-作业.jar，而不是使用mahout-core-0.5-快照.jar在
如果作业流中有其他流式处理步骤，则需要修复boto中的错误：
1. 打开boto/emr/步骤.py在
2. 将第138行改为“return'/home/hadoop/contrib/streaming/hadoop”-流媒体.jar'“
3. 保存并重新安装boto

以下是如何调用job\u flow函数以与mahout一起运行：

jobid = emr_conn.run_jobflow(name = name, log_uri = 's3n://'+ main_bucket_name +'/emr-logging/', enable_debugging=1, hadoop_version='0.20', steps=[step1,step2])

网友

2楼 · 编辑于 2024-09-20 22:54:27

上述步骤2中描述的boto修复（即使用非版本化的hadoop-streamin.jar文件文件）已合并到github主服务器中：

https://github.com/boto/boto/commit/a4e8e065473b5ff9af554ceb91391f286ac5cac7

网友

3楼 · 编辑于 2024-09-20 22:54:27

从博图做这件事的一些参考

import boto.emr.connection as botocon

import boto.emr.step as step

con = botocon.EmrConnection(aws_access_key_id='', aws_secret_access_key='')

step = step.JarStep(name='Find similar items', jar='s3://mahout-core-0.6-job.jar', main_class='org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob', action_on_failure='CANCEL_AND_WAIT', step_args=[' input', 's3://', ' output', 's3://', ' similarityClassname', 'SIMILARITY_PEARSON_CORRELATION'])

con.add_jobflow_steps('jflow', [step])

显然你需要上传mahout-core-0.6-作业.jar到可进入的s3位置。输入和输出必须是可访问的。在

相关问题更多 >

编程相关推荐

热门问题

热门文章