用于HadoopMapReduce的java小型数据集
我正在努力熟悉Hadoop MapReduce。在学习了这些概念的理论知识之后,我想对它们进行实践
但是,我找不到这种技术的小型数据集(高达3 Gb)。在哪里可以找到数据集进行练习
或者,我如何练习Hadoop MapReduce?换句话说,有没有提供锻炼的教程或网站
你可以在下面搜索框中键入要查询的问题!
我正在努力熟悉Hadoop MapReduce。在学习了这些概念的理论知识之后,我想对它们进行实践
但是,我找不到这种技术的小型数据集(高达3 Gb)。在哪里可以找到数据集进行练习
或者,我如何练习Hadoop MapReduce?换句话说,有没有提供锻炼的教程或网站
# 1 楼答案
为什么不自己创建一些数据集呢
一件非常简单的事情是用数百万个随机数填充一个文件,然后使用Hadoop查找重复数、三元数、素数、因子中有重复数的数等等
当然,这不像在facebook上找到普通朋友那么有趣,但只要稍微练习一下Hadoop就足够了
# 2 楼答案
可供下载和使用的可公开访问的数据集。下面是一个例子 没有几个例子
http://www.netflixprize.com/index-作为比赛的一部分, 它发布了一组用户评级数据,以挑战人们更好地发展 推荐算法。未压缩的数据为2 GB+。它包含 1700部电影中480k用户的100 M+电影收视率
http://aws.amazon.com/publicdatasets/-例如,其中一个 生物数据集是一个约550GB的带注释的人类基因组数据集。在下面 经济学你可以找到数据集,如2000年美国人口普查(约 200 GB)
http://boston.lti.cs.cmu.edu/Data/clueweb09/-卡内基梅隆大学 语言技术研究所发布了ClueWeb09数据集来帮助 大规模的网络研究。这是10种语言的10亿个网页的爬行。这个 未压缩的数据集占用25 TB
# 3 楼答案
下面是一些要开始的toy problems。同样检查一下Data-Intensive Text Processing with MapReduce,它已经得到了一些在MapReduce中实现的算法的伪代码,比如页面排名、连接、索引
以下是随时间收集的一些公共数据集。你可能得挖一些小的
http://wiki.gephi.org/index.php/Datasets
Download large data for Hadoop
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu/data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/