如何使用s3对象名作为MRJob映射器的输入，而不是s3对象本身？

import re class MRCountS3Objects(MRJob): define mapper(self, _, botoS3Key): if re.match('^foo', botoS3Key.name): yield 'foo', 1 define reduce(self, name, occurrences): yield name, sum(occurrences)

1条回答

网友

1楼 · 发布于 2024-09-26 22:49:36

至少有一种方法可以做到这一点。MRJob有一个可以分配给任何迭代器的stdin属性，然后可以编程方式运行该作业。例如，此代码应该处理my-bucket的键名：

from mrjob.job import MRJob
from mrjob.emr import EMRJobRunner

class MRS3KeyProcessor(MRJob):
    # Do some MRJob stuff.
    ...

def s3_name_generator(bucket):
    """Generator that returns boto.s3.Key names.
    """
    # Could also use raw boto here.
    emr = EMRJobRunner()
    key_stream = emr.fs.get_s3_keys(bucket)
    for key in key_stream:
        yield key.name

def main():
    # The '-' argument signifies that we use stdin.
    mr_job = MRCountS3Objects([' runner', 'inline', '-'])
    stdin = s3_name_generator('my-bucket')
    mr_job.stdin = stdin
    results = []
    with mr_job.make_runner() as runner:
        runner.run()
        for line in runner.stream_output():
            key, value = mr_job.parse_output_line(line)
            results.append((key, value))
    print(results)

if __name__ == '__main__':
    main()

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用s3对象名作为MRJob映射器的输入，而不是s3对象本身？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >