对一堆S3文件运行python脚本

2024-10-02 12:30:33 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个python脚本,我想在S3文件上运行并将输出发送到另一个s3bucket。在

现在我可以启动一个EC2实例,并使用boto进行交互,这很好。但这似乎没有一种在进程完成后自动关闭EC2的方法(我将操作大约100GB的数据,所以我不想坐在那里看着它)。在

AWS的数据管道看起来很有吸引力,因为它们可以适当地伸缩,并在完成后释放资源。太棒了。但我似乎找不到在管道中运行python脚本的方法。ShellCommandActivity似乎最接近,但我无法确定如何设置它,以便能够构建适当的虚拟环境(使用适当的软件包等)。试图找出实现这一目标的最佳方法。任何帮助都将不胜感激


Tags: 文件数据实例方法脚本aws管道s3
1条回答
网友
1楼 · 发布于 2024-10-02 12:30:33

数据管道带来的资源中安装了Python。您只需使用ShellCommandActivity并运行Python。下面是一个运行ShellCommandActivity的示例管道:https://github.com/awslabs/data-pipeline-samples/tree/master/samples/helloworld

您可以用以下内容替换脚本:

python -c 'print "Hi"'

或者,如果您的Python脚本在S3上,您可以下载并运行它们

^{pr2}$

相关问题 更多 >

    热门问题