使用Python map redu的Avro数据序列化

1条回答

网友

1楼 · 发布于 2024-06-26 10:57:42

您可以使用Pydoop>；=1.0.0-rc2完成此操作。下面是颜色计数示例的外观：

from collections import Counter

import pydoop.mapreduce.api as api
import pydoop.mapreduce.pipes as pp
from pydoop.avrolib import AvroContext

class Mapper(api.Mapper):

    def map(self, ctx):
        user = ctx.value
        color = user['favorite_color']
        if color is not None:
            ctx.emit(user['office'], Counter({color: 1}))

class Reducer(api.Reducer):

    def reduce(self, ctx):
        s = sum(ctx.values, Counter())
        ctx.emit('', {'office': ctx.key, 'counts': s})

def __main__():
    factory = pp.Factory(mapper_class=Mapper, reducer_class=Reducer)
    pp.run_task(factory, private_encoding=True, context_class=AvroContext)

要运行应用程序：

^{pr2}$

有关详细信息，请参阅Pydoop Avro docs。在

编程相关推荐

java Jsonify使用Jackson来定义嵌套对象
在Swing中禁用java图形调试
java Selenium Webdriver拖放在Jenkins上不起作用
java我对一个显示器的问题有一个非常不切实际的询问
java增强的“for”循环导致ArrayIndexOutOfBoundsException
ArrayAdapter适用于Java中的安卓编程，字符串数组
linux在Ubuntu上通过PulseAudio播放Java音频文件时出错
java在Spring应用程序中加载内部（类路径）和外部属性文件
java使用Maven连接到mySQL
Java应用程序的设计

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用Python map redu的Avro数据序列化

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >