Sp中有两列的reduceByKey

1条回答

网友

1楼 · 发布于 2024-10-01 13:46:21

据我所知，您的目标是计数(column1,input.column2)对，您的输入大致如下所示：

from numpy.random import randint, seed
from pyspark.sql import Row

seed(323)

rdd = sc.parallelize(
    Row(column1=randint(0, 5), column2=randint(0, 5)) for _ in range(1000))
rdd.take(3)

结果：

^{pr2}$

首先要按a分组（第1列，第2列）：

pairsWithOnes = rdd.map(lambda input: ((input.column1, input.column2), 1))
pairsWithOnes.take(3)

结果：

[((0, 0), 1), ((4, 4), 1), ((3, 2), 1)]

剩下的都很简单reduceByKey：

pairsWithOnes.reduceByKey(lambda x, y: x + y).take(3)

结果

[((1, 3), 37), ((3, 0), 43), ((2, 1), 40)]

编程相关推荐

尝试在jave中上载图像时出现java NoSuchFileException
在Weka Java API中创建字符串属性
java如何重写toString并打印ArrayList的自定义类类型
java您在RegistrySpec中放了什么。用于Izpack安装以设置发布服务器字段的xml
持久性查询中的java异常
铸造（Java）为什么是数学。ceil（15/10）是1.0而不是2.0？
Rest设计的javascript正则表达式
java无法构建实际的Intellij IDEA社区版
ssl从openssl自签名证书文件创建Java密钥库
java将在IntelliJ上开发的Spring boot javascript web应用程序连接到Chrome的JetBrains扩展进行调试

相关问题更多 >

编程相关推荐

热门问题

热门文章

Sp中有两列的reduceByKey

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >