如何为mrJobs中的多行输入编写自定义协议

import csv import mapreduce as mr from mrjob.job import MRJob from mrjob.step import MRStep from mrjob import protocol class multiLineCsvInputProtocol(object): def read(self, line): key, val = enumerate(line.split(',', 1)) return key, val class someTask(MRJob): INPUT_PROTOCOL = multiLineCsvInputProtocol def mapper1(self,_, row): yield (row, 1 ) if __name__ == '__main__': MRFindReciprocal.run()

1条回答

网友

1楼 · 发布于 2024-10-03 09:07:55

根据mrjob的documentation，read函数的行参数的类型为bytestring，您很可能会得到该错误，因为您被','分割，这是一个str：

Writing custom protocols
A protocol is an object with methods read(self, line) and write(self, key, value). The read() method takes a bytestring and returns a 2-tuple of decoded objects, and write() takes the key and value and returns bytes to be passed back to Hadoop Streaming or as output.

可能的解决办法：

您可以尝试通过b','进行拆分，这是一个bytestring
您可以在分割之前解码行，如下：line.decode().split(',', 1)（指定编码可能是个好主意）

相关问题更多 >

编程相关推荐

热门问题

热门文章