java计算最终映射中的总行数减少hadoop中的输出

1 年，2 月 Questions & Answers 212

当前我的num reduce任务设置为job.setNumReduceTasks(100);

我的最终输出目录在S3中，如下所示

/output/part-r-00000.gz
/output/part-r-00001.gz
... etc

为了计算所有的行数，我必须手动下载和解压所有文件，并遍历每个文件以计算总行数

在hadoop上下文中是否有一个总行度量存储

Tags:

# 1 楼答案

Map Reduce应用程序日志存储Map和Reduce任务的计数器。对于所有的减速机，如果你查看作业日志（精确地说是计数器），像“减速机输出记录”这样的东西应该会为你提供所需的信息。然而，这是一个HDP平台，RM UI的所有信息都在作业计数器部分