擅长:python、mysql、java
<p>在<code>mrjob.conf</code>中,安装包所需的行可能不在它们应该的位置。应该应用于在EMR上运行的作业的内容应该列在<code>emr:</code>下,而不是{<cd3>}(这是在本地Hadoop安装上运行作业时的配置)。在</p>
<p>如果它是一个简单的Linux命令,比如<code>pip</code>或<code>apt-get</code>,那么您应该能够安装这样的软件包:</p>
<pre><code>runners:
emr:
aws_access_key_id: ***
... all the other stuff ...
bootstrap_cmds:
- sudo apt-get install -y python-boto
- sudo pip install simplejson
</code></pre>
<p>我从来没有尝试过具体地安装NLTK,所以我无法帮助您,但是您应该能够沿着这条线进行安装。在</p>
<p>对于可能更复杂的安装,我建议使用EMR CLI将<code>ssh</code>放到主节点上:</p>
^{pr2}$
<p>试着安装软件包。如果您找到一系列成功安装包的shell命令,那么您只需将其复制并粘贴到<code>mrjob.conf</code>中。在</p>