MapReduce对处理大文件、抓取大量页面以获取数据并将其插入Hbase有用吗?

2024-10-05 12:16:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我每天都会运行一些python脚本,这些脚本可以完成以下任务:

parse 1000 text files (gziped) :
    ~ 100 GB 
    30 Millions rows
Crawl some data from many websites : 
    40 Millions rows    
    Script distributed in 50 Amazon EC2 micro instances (5 scripts / instance)

对于每一行,我都会做一些类似的事情(如果该行不存在,请确保在插入前在数据库中搜索一些需要与我的行一起添加的数据),最后,在Hbase和Solr中插入该行。 要处理所有这些文件并爬网所有这些页面,需要花费大量时间,即使我在多台机器上分发脚本也是如此。你知道吗

我现在不使用MapReduce,我的问题是:MapReduce在我的情况下有用吗?(我了解了一点,我的理解是,如果我想在像wordCount example这样的文件中进行一些计算,我真的需要它)


Tags: 文件textfrom脚本dataparsesomefiles
1条回答
网友
1楼 · 发布于 2024-10-05 12:16:51

MapReduce是由不同的分销商(Apache、Google等)实现的编程范式。如果您想使用MapReduce处理数据,您需要配置集群并将数据存储在分布式文件系统(hdfs或Hadoop已知的其他实现)中。 是的,mapreduce作业将在集群中的不同节点之间进行并行处理,从而节省您的时间。你知道吗

相关问题 更多 >

    热门问题