pyspark根据列值删除重复行

2条回答

网友
1楼 · 编辑于 2024-09-27 07:30:01

我想reduceByKey会有帮助的。在
请记住，当使用reduceByKey或任何其他“按键”转换或操作时，可以将键定义为元组。在
rdd = sc.parallelize([(2,10482422,0.18), (2,10482422,0.4), (2,10482423,0.15), (2,10482423,0.43), (2,10482424,0.18), (2,10482424,0.49), (2,10482425,0.21), (2,10482425,0.52), (2,10482426,0.27), (2,10482426,0.64), (2,10482427,0.73)]) print rdd.map(lambda x: ((x[0], x[1]), x[2]))\ .reduceByKey(lambda x, y: x if x >= y else y)\ .collect()
结果：
^{pr2}$

网友
2楼 · 编辑于 2024-09-27 07:30:01

您的回答并非100%明确您是否要使用数据帧，但如果您愿意从您的RDD创建DF，那么您也可以使用以下方法：
from pyspark.sql import functions as f df.groupby('column1', 'column2') .agg(f.max(f.col('value').alias('maxval'))

编程相关推荐

java IntelliJ IDEA CreativeProcess错误=193，%1不是有效的Win32应用程序
在java中返回多个值（字符串和数组）
我们可以使用java驱动程序。在pom类中查找数据？
java是处理请求后数据的有效方法
用于小文件的java音频缓存安卓 studio
使用Java exec的postgresql额外psql命令行参数
java导入语句代码错误
使用服务上传java Android HTTPS文件（从HTTP转换为HTTPS）
启动配置服务器组织时发生java Microservice错误。springframework。靴子上下文财产。绑定绑定结果
swing Java:无法在JFrame中显示图像

相关问题更多 >

编程相关推荐

热门问题

热门文章