在hadoop的一个流作业中使用多个映射器输入?

2024-09-27 21:23:17 发布

您现在位置:Python中文网/ 问答频道 /正文

在java中,我会使用:

MultipleInputs.addInputPath(conf, path, inputFormatClass, mapperClass)

使用不同的映射器添加多个输入。在

现在我用python在hadoop中编写一个流作业,类似的作业可以做吗?在


Tags: pathhadoopconf作业java我会multipleinputsaddinputpath
2条回答

我想这可以帮助你:https://github.com/hyonaldo/hadoop-multiple-streaming。在

在这里您还可以看到“不同的映射器用于这些不同的输入路径”:

hadoop jar hadoop-multiple-streaming.jar \  
  -input    myInputDirs \  
  -multiple "outputDir1|mypackage.Mapper1|mypackage.Reducer1" \  
  -multiple "outputDir2|mapper2.sh|reducer2.sh" \  
  -multiple "outputDir3|mapper3.py|reducer3.py" \  
  -multiple "outputDir4|/bin/cat|/bin/wc" \  
  -libjars  "libDir/mypackage.jar" \
  -file     "libDir/mapper2.sh" \  
  -file     "libDir/mapper3.py" \  
  -file     "libDir/reducer2.sh" \  
  -file     "libDir/reducer3.py"

可以使用多个输入选项指定多个输入路径:

hadoop jar hadoop-streaming.jar -input foo.txt -input bar.txt ...

相关问题 更多 >

    热门问题