如何为AWS MapRedu准备和善后数据

2024-07-08 11:11:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在为一个大学项目使用Amazons MapReduce Web服务。为了将数据用于MapReduce,我需要将它们从关系数据库(awsrds)转储到S3中。在MapReduce完成后,我需要分割输出文件并将其块加载到它们自己的S3桶中。在

在amazonwebservices环境中实现这一点的好方法是什么?在

最好的例子:除了用于RDS和MapReduce的EC2实例之外,不使用额外的EC2实例可以实现这一点吗?在

我使用python作为mapper和reducer函数,json说明符用于MapReduce作业流。否则我不受语言或技术的限制。在


Tags: 文件数据项目实例webs3环境service
1条回答
网友
1楼 · 发布于 2024-07-08 11:11:37

如果您看一下Amazon Elastic MapReduce Developer Guide,您需要在S3中指定输入数据、输出数据、映射器脚本和reducer脚本的位置,以便创建MapReduce作业流。在

如果需要执行一些预处理(例如从数据库转储MapReduce输入文件)或后处理(例如将MapReduce输出文件拆分到S3中的其他位置),则必须将这些任务与MapReduce作业流分开进行自动化。在

您可以使用^{} library来编写那些预处理和后处理脚本。它们可以运行在EC2实例或任何其他可以访问s3bucket的计算机上。从EC2传输数据可能更便宜、更快,但是如果您没有EC2实例可供使用,您可以在自己的计算机上运行脚本。。。除非有太多的数据要传输!在

您可以随心所欲地实现自动化:您甚至可以安排整个过程,包括生成输入、启动新的MapReduce作业流、等待作业完成并相应地处理输出,这样,只要配置正确,整个过程就可以简化为按一个按钮:)

相关问题 更多 >

    热门问题