用于HadoopMapReduce的java小型数据集

1 周，4 日 Questions & Answers 8139

我正在努力熟悉Hadoop MapReduce。在学习了这些概念的理论知识之后，我想对它们进行实践

但是，我找不到这种技术的小型数据集（高达3 Gb）。在哪里可以找到数据集进行练习

或者，我如何练习Hadoop MapReduce？换句话说，有没有提供锻炼的教程或网站

共 (3) 个答案

# 1 楼答案

为什么不自己创建一些数据集呢

一件非常简单的事情是用数百万个随机数填充一个文件，然后使用Hadoop查找重复数、三元数、素数、因子中有重复数的数等等

当然，这不像在facebook上找到普通朋友那么有趣，但只要稍微练习一下Hadoop就足够了
# 2 楼答案

可供下载和使用的可公开访问的数据集。下面是一个例子没有几个例子

http://www.netflixprize.com/index-作为比赛的一部分，它发布了一组用户评级数据，以挑战人们更好地发展推荐算法。未压缩的数据为2 GB+。它包含 1700部电影中480k用户的100 M+电影收视率

http://aws.amazon.com/publicdatasets/-例如，其中一个生物数据集是一个约550GB的带注释的人类基因组数据集。在下面经济学你可以找到数据集，如2000年美国人口普查（约 200 GB）

http://boston.lti.cs.cmu.edu/Data/clueweb09/-卡内基梅隆大学语言技术研究所发布了ClueWeb09数据集来帮助大规模的网络研究。这是10种语言的10亿个网页的爬行。这个未压缩的数据集占用25 TB
# 3 楼答案

OR, How can I do practise Hadoop-MapReduce ? In other words, are there any tutorial or website which offers exercise ?

下面是一些要开始的toy problems。同样检查一下Data-Intensive Text Processing with MapReduce，它已经得到了一些在MapReduce中实现的算法的伪代码，比如页面排名、连接、索引

以下是随时间收集的一些公共数据集。你可能得挖一些小的

http://wiki.gephi.org/index.php/Datasets
Download large data for Hadoop
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu/data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/

Python中文网

有 Java 编程相关的问题?

用于HadoopMapReduce的java小型数据集

共 (3) 个答案

# 1 楼答案

# 2 楼答案

# 3 楼答案