在Hadoop中转换JSON文件

hadoop \ jar /opt/hadoop/contrib/streaming/hadoop-streaming-1.0.3.jar \ -mapper "python $PWD/mapper.py" \ -reducer "python $PWD/reducer.py" \ -input "wordcount/mobydick.txt" \ -output "wordcount/output"

1条回答

网友

1楼 · 发布于 2024-09-24 06:28:23

你是对的，在这种情况下，你不需要任何减速器，你的映射器的输出是你想要的，所以你应该把减速器的数量设置为0。当您告诉Hadoop JSON数据所在的输入路径时，它将自动向每个映射器提供随机数量的JSON行，映射器将处理这些行，您需要将其发送到上下文，以便它将值存储在输出路径中。这个方法是正确的，而且这个任务是100%并行的，所以如果您的集群中有多台机器并且您的配置是正确的，那么它应该充分利用集群，并且它的运行速度将比在单个主机上运行它快得多。在

编程相关推荐

java无法访问远程pentaho biserver
带有级联类型的OneToMany上的java Hibernate TransientObject异常。如果我们在保存之前调用迭代器（）就可以了
java如果用户输入的“数字”超过了用于解释该数字的内存大小，那么正确的测试方法是什么？
java错误400错误请求JqGrid
java如何防止修改类中的私有字段？
java从一个Bean创建两个JPA表？
在Java中生成一个在JVM关闭后仍能生存的进程
java将字符反向复制到字符数组
使用opencv的java人脸检测不起作用
java差异代码覆盖率

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Hadoop中转换JSON文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >