有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

用于HadoopMapReduce的java小型数据集

我正在努力熟悉Hadoop MapReduce。在学习了这些概念的理论知识之后,我想对它们进行实践

但是,我找不到这种技术的小型数据集(高达3 Gb)。在哪里可以找到数据集进行练习

或者,我如何练习Hadoop MapReduce?换句话说,有没有提供锻炼的教程或网站


共 (3) 个答案

  1. # 1 楼答案

    为什么不自己创建一些数据集呢

    一件非常简单的事情是用数百万个随机数填充一个文件,然后使用Hadoop查找重复数、三元数、素数、因子中有重复数的数等等

    当然,这不像在facebook上找到普通朋友那么有趣,但只要稍微练习一下Hadoop就足够了

  2. # 2 楼答案

    可供下载和使用的可公开访问的数据集。下面是一个例子 没有几个例子

    http://www.netflixprize.com/index-作为比赛的一部分, 它发布了一组用户评级数据,以挑战人们更好地发展 推荐算法。未压缩的数据为2 GB+。它包含 1700部电影中480k用户的100 M+电影收视率

    http://aws.amazon.com/publicdatasets/-例如,其中一个 生物数据集是一个约550GB的带注释的人类基因组数据集。在下面 经济学你可以找到数据集,如2000年美国人口普查(约 200 GB)

    http://boston.lti.cs.cmu.edu/Data/clueweb09/-卡内基梅隆大学 语言技术研究所发布了ClueWeb09数据集来帮助 大规模的网络研究。这是10种语言的10亿个网页的爬行。这个 未压缩的数据集占用25 TB

  3. # 3 楼答案

    OR, How can I do practise Hadoop-MapReduce ? In other words, are there any tutorial or website which offers exercise ?

    下面是一些要开始的toy problems。同样检查一下Data-Intensive Text Processing with MapReduce,它已经得到了一些在MapReduce中实现的算法的伪代码,比如页面排名、连接、索引

    以下是随时间收集的一些公共数据集。你可能得挖一些小的

    http://wiki.gephi.org/index.php/Datasets
    Download large data for Hadoop
    http://datamob.org/datasets
    http://konect.uni-koblenz.de/
    http://snap.stanford.edu/data/
    http://archive.ics.uci.edu/ml/
    https://bitly.com/bundles/hmason/1
    http://www.inside-r.org/howto/finding-data-internet
    https://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
    http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
    http://data.cityofsantacruz.com/