使用TextInputFormat和Python的Hadoop流式处理跟踪行号

2024-09-30 16:27:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我在计算方阵上每个对角线的和。我正在使用Python和Hadoop流式处理,但是我找不到任何方法来配置Hadoop流式处理,以获得this guy所说的每一行的偏移量,使用TextInputFormat。在

StackOverflow上还有另一个question也在问同样的问题,但没有人回答如何做。 hadoop doc表示放弃keys of LongWritable class,但我不确定这是否是偏移量。在

如何配置作业以获取偏移量? 我是否需要生成一个从TextInputFormat派生的新类而不返回LongWritable?如果我不懂Java怎么办?谢谢


Tags: 方法hadoopdoc流式keysthisstackoverflow偏移量
1条回答
网友
1楼 · 发布于 2024-09-30 16:27:55

我对StackOverflow做了更多的研究,还有一个人问了same thing,但是没有人回答,尽管他说使用-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat是有效的,但是完成这项工作需要很多时间。在

我知道有更好的答案,但在有人回答之前,这已经足够好了。在

相关问题 更多 >