基本hadoop mapreduce作业正在启动,但尚未完成

2024-09-26 18:08:27 发布

您现在位置:Python中文网/ 问答频道 /正文

我看到的是Hadoop,但是当我试图提交一个mapreduce作业时,Hadoop似乎启动了,但却挂起了,没有进度或其他活动的指示。应用程序状态页上说它已经提交并显示了作业,但是什么都没有发生,我很好奇在哪里可以解决这个问题。在

我使用的是Hadoop 2.7.1版,安装在OS X 10.10.4中,使用的是Homebrew和Java1.8.0_45。我按照以下说明配置了它:https://datarecipe.wordpress.com/2015/06/05/setup-hadoop-2-6-on-mac-osx-10-9/

数据是一个简单的文本文件,名为“采购.txt“包含此内容(制表符分隔):

2013-03-29  2:30    miami   cup 2.43    visa
2013-04-23  1:34    miami   cup 2.43    visa
2013-04-23  10:15   LA  spoon   1.32    visa
2013-04-28  6:34    LA  bottle  3.56    cash
2013-05-23  1:43    miami   glass   3.21    visa

我已经用(已创建的数据文件夹)将此上载到hadoop:

^{pr2}$

然后,我在python中设置了以下映射器(根据在线教程),并将其命名为“映射器.py“:

import sys

def mapper():
    for line in sys.stdin:
        tempdata = line.strip().split("\n")
        for l in tempdata:
            if (len(l.split("\t")) == 6):
                date, time, store, item, cost, payment = l.split("\t")
                print("{0}\t{1}".format(store,cost))

def main():
    mapper()

if __name__=="__main__":
    main()

我对reducer代码做了同样的处理,并称之为“减速器.py“:

import sys

def reducer():
    salesTotal = 0
    oldKey = None
    for line in sys.stdin:
        data = line.strip().split("\t")
        if len(data)!=2:
            continue
        thisKey, thisSale = data
        if oldKey and oldKey != thisKey:
            print("{0}\t{1}".format(oldKey,salesTotal))
            salesTotal=0
        oldKey = thisKey
        salesTotal+=float(thisSale)
    if oldKey != None:
        print("{0}\t{1}".format(oldKey,salesTotal))

def main():
    reducer()

if __name__=="__main__":
    main()

在命令行上测试这些代码:

Tophers-Retina-MBP:Hadoop tkessler$ cat purchases.txt | ./mapper.py | sort | ./reducer.py 
LA  4.88
miami   5.640000000000001

但是,当我在Hadoop中运行流进程时,它只是在这里暂停:

Tophers-Retina-MBP:lib tkessler$ hadoop jar ./hadoop-streaming-2.7.1.jar -mapper ~/PycharmProjects/Hadoop/mapper.py -reducer ~/PycharmProjects/Hadoop/reducer.py -file ~/PycharmProjects/Hadoop/mapper.py -input /data -output /project1out
packageJobJar: [/Users/tkessler/PycharmProjects/Hadoop/mapper.py, /var/folders/f_/3zvmc1g95lqgt1cp2dtnrtqw0000gp/T/hadoop-unjar2355518779286421017/] [] /var/folders/f_/3zvmc1g95lqgt1cp2dtnrtqw0000gp/T/streamjob8766144507660069606.jar tmpDir=null

它似乎很好地启动了作业,并接受了映射器和reducer,运行“mapred job-list all”显示作业都在运行,但从未完成,状态只是列为“unknown”。我不确定这是hadoop配置问题,还是其他问题,如果有人有任何见解。在

添加:

当我运行下面的示例命令时,进程似乎只停留在以下行:

Tophers-Retina-MBP:~ tkessler$ hadoop jar /usr/local/Cellar/hadoop/2.7.1/libexec/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar pi 4 1000
Number of Maps  = 4
Samples per Map = 1000
Wrote input for Map #0
Wrote input for Map #1
Wrote input for Map #2
Wrote input for Map #3
Starting Job

Tags: pyhadoopmapforinputifmain作业
1条回答
网友
1楼 · 发布于 2024-09-26 18:08:27

通过关闭namenode和datanodes清除Hadoop,然后使用brew uninstall hadoop卸载它,然后按照本页上的说明进行设置:http://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/

现在似乎工作得很好,所以可能只是对配置做了一点小小的更改(可能是临时文件位置),但它现在处理映射器和reducer非常好。在

相关问题 更多 >

    热门问题