如何为AWS MapRedu准备和善后数据 - 问答 - Python中文网

如何为AWS MapRedu准备和善后数据

2024-07-08 11:11:37 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在为一个大学项目使用Amazons MapReduce Web服务。为了将数据用于MapReduce，我需要将它们从关系数据库（awsrds）转储到S3中。在MapReduce完成后，我需要分割输出文件并将其块加载到它们自己的S3桶中。在

在amazonwebservices环境中实现这一点的好方法是什么？在

最好的例子：除了用于RDS和MapReduce的EC2实例之外，不使用额外的EC2实例可以实现这一点吗？在

我使用python作为mapper和reducer函数，json说明符用于MapReduce作业流。否则我不受语言或技术的限制。在

Tags：文件数据项目实例 web s3 环境 service

1条回答

网友

1楼 · 发布于 2024-07-08 11:11:37

如果您看一下Amazon Elastic MapReduce Developer Guide，您需要在S3中指定输入数据、输出数据、映射器脚本和reducer脚本的位置，以便创建MapReduce作业流。在

如果需要执行一些预处理（例如从数据库转储MapReduce输入文件）或后处理（例如将MapReduce输出文件拆分到S3中的其他位置），则必须将这些任务与MapReduce作业流分开进行自动化。在

您可以使用^{} library来编写那些预处理和后处理脚本。它们可以运行在EC2实例或任何其他可以访问s3bucket的计算机上。从EC2传输数据可能更便宜、更快，但是如果您没有EC2实例可供使用，您可以在自己的计算机上运行脚本。。。除非有太多的数据要传输！在

您可以随心所欲地实现自动化：您甚至可以安排整个过程，包括生成输入、启动新的MapReduce作业流、等待作业完成并相应地处理输出，这样，只要配置正确，整个过程就可以简化为按一个按钮：）

相关问题更多 >

编程相关推荐

热门问题

热门文章