如何在amazon上安装自定义软件包EMR引导程序?

2024-10-01 15:31:45 发布

您现在位置:Python中文网/ 问答频道 /正文

需要在amazonemr引导操作上安装一些包和二进制文件,但是我找不到任何使用这个的例子。在

基本上,我想安装python包,并指定每个hadoop节点使用这个包处理s3 bucket中的项,下面是一个frpmpboto示例。在

                      name='Image to grayscale using SimpleCV python package',
                      mapper='s3n://elasticmapreduce/samples/imageGrayScale.py',
                      reducer='aggregate',
                      input='s3n://elasticmapreduce/samples/input',
                      output='s3n://<my output bucket>/output'

我需要让它使用simplecvpython包,但不确定在哪里指定它。如果没有安装怎么办,如何安装?有没有一种方法可以避免等待安装完成,是否可以将其安装到某个地方,只引用python包?在


Tags: 文件hadoop示例inputoutput节点s3bucket
1条回答
网友
1楼 · 发布于 2024-10-01 15:31:45

有一个班级boto.emr.bootstrap_操作.BootstrapAction,用于引导操作。在

定义如下。大部分代码来自boto example page。在

import boto.emr
from boto.emr.bootstrap_action import BootstrapAction

action = BootstrapAction(name="Bootstrap to add SimpleCV",
                         path="s3n://<my bucket uri>/bootstrap-simplecv.sh")

conn = boto.emr.connect_to_region('us-west-2')
jobid = conn.run_jobflow(name='My jobflow',
                         log_uri='s3://<my log uri>/jobflow_logs',
                         steps=[step],  # step defined elsewhere
                         bootstrap_actions=[action])

你需要定义引导操作。如果您需要Python的另一个版本,那么是的,这将节省时间在完全相同的计算机上预编译它,tar它,把它放在S3存储桶中,然后在引导过程中解压它。在

^{pr2}$

我认为您可以让EMR实例在boto中旋转,这样引导只在会话的第一次出现。只需在注销前小心关闭它们,这样你就不会在账单上得到惊喜。在

相关问题 更多 >

    热门问题