无法将pig tuple传递给python UDF

REGISTER 'smsiuc_udf.py' using streaming_python as smsiuc_udfs; cdrs = load '2016040111*' USING PigStorage('|','-tagFile') ; mastergtrec = load 'master.txt' USING PigStorage(',','-tagFile'); mastergt = FOREACH mastergtrec GENERATE (chararray) UPPER($1) as opcdpc, (chararray) UPPER($2) as gtoptname,(chararray) UPPER($3) as gtoptcircle; mastergttup = FOREACH mastergt generate TOTUPLE(opcdpc,gtoptname,gtoptcircle) as mstgttup; cdrrecord = FOREACH cdrs GENERATE (chararray) UPPER($1) as aparty, (chararray) UPPER($2) as bparty,$3 as smssentdate,$4 as smssenttime,($29=='6' ? 'S' : 'F') as status,(chararray) UPPER($26) as srcgt,(chararray) UPPER($27) as destgt,($12=='405899136999995' ? 'MTSDEL-CDMA' : ($12=='919875089998' ? 'MTSRAJ-GSM' : ($12=='405899150999995' ? 'MTSCHN-CDMA' : $12) ) ) as smscgt, (chararray)$0 as cdrfname,(chararray) $13 as prepost; filteredp2pcdrs = FILTER cdrrecord by smsiuc_udfs.pullp2pcdrs(aparty,bparty,srcgt,destgt) and status == 'S' and SUBSTRING(smssentdate,4,6) == '$MON'; groupp2pcdrs = GROUP filteredp2pcdrs by (srcgt,destgt,aparty,bparty,smscgt,status,prepost); distinctp2pcdrs= FOREACH groupp2pcdrs { uniq = DISTINCT filteredp2pcdrs.(srcgt,destgt,aparty,bparty,smscgt,status,prepost); GENERATE FLATTEN(group),COUNT(uniq) as cnt; }; p2preportmap = FOREACH distinctp2pcdrs GENERATE smsiuc_udfs.p2preport(srcgt,destgt,aparty,bparty,mastergttup ),smscgt,status,prepost,cnt

2条回答

网友

1楼 · 编辑于 2024-10-02 18:14:44

这可以通过添加一个伪列，然后分组来完成。在

dummy=foreach p2preportmap generate 1，$0，$1。。。。在

分组=按$0分组虚拟对象

网友

2楼 · 编辑于 2024-10-02 18:14:44

我给你举个例子，我有两个关系a和B

1,2,3
3,4,5
4,5,6

^{pr2}$

现在我需要一个pythonudf，它可以像下面这样查找打印输出的第一列。在

    ((1,{(1,2,3)}))
((2,))
((3,{(3,4,5)}))
((1,{(1,2,3)}))
((2,))
((3,{(3,4,5)}))
((1,{(1,2,3)}))
((2,))
((3,{(3,4,5)}))

所以首先我按第一列对A分组，然后按1分组，这样我就只有一行了

c = group A by $0
e = group c by 1

pythonudf如下所示

def pythonudf(value,map):
    print map
    temp = None
    for a in map:
        if a[0] == value:
            temp = a[1]
    return value,temp

现在你用这个自定义项

D = foreach B generate myudf.pythonudf($0,e.$1);

相关问题更多 >

编程相关推荐

热门问题

热门文章