我在S3中存储了很多100K+的图像,我有一些代码使用pySpark来处理其中的一些。我正在使用anacondapython,因此已经正确安装了大量库,我正在使用库scipy
,PIL
进行图像处理。你知道吗
我计划使用电子病历,但以下是我的选择:
For Python applications, simply pass a .py file in the place of instead of a JAR, and add Python .zip, .egg or .py files to the search path with --py-files. - [Spark Documentation]
它们还支持customized bootstrap在配置集群时安装软件。然而,事实证明Anaconda的linux安装并不像“yum install-y”那么简单。安装包括:
有人能告诉我正确的方向吗?用Spark和anacondapython(或者至少是scipy和PIL)构建集群的更好方法是什么。你知道吗
你能用EMR bootstrap actions来做silent install of anaconda吗?你知道吗
您可能还需要考虑Lambda,因为它现在支持Python(2.7)。考虑到这些文件已经在S3中,您需要为它们编写Lambda事件脚本。你知道吗
相关问题 更多 >
编程相关推荐