PySpark：过滤掉列值在datafram中多次出现的行

1条回答

网友

1楼 · 发布于 2024-09-27 07:26:16

# count rows per A-B
dfWithRowCount = df.selectExpr("*", "count('*') over (partition by (ColA, ColB)) as nrows")

# filter
uniqueAB = dfWithRowCount.filter(dfWithRowCount.nrows == 1).drop('nrows')
nonUniqueAB = dfWithRowCount.filter(dfWithRowCount.nrows > 1).drop('nrows')

nonUniqueAB.show()
+  +  +  +
|ColA|ColB|ColC|
+  +  +  +
|   2|   2|   2|
|   2|   2|   8|
|   1|   2|   4|
|   1|   2|   6|
+  +  +  +

uniqueAB.show()
+  +  +  +
|ColA|ColB|ColC|
+  +  +  +
|   1|   3|   3|
|   2|   3|   9|
+  +  +  +

编程相关推荐

java IntelliJ IDEA CreativeProcess错误=193，%1不是有效的Win32应用程序
在java中返回多个值（字符串和数组）
我们可以使用java驱动程序。在pom类中查找数据？
java是处理请求后数据的有效方法
用于小文件的java音频缓存安卓 studio
使用Java exec的postgresql额外psql命令行参数
java导入语句代码错误
使用服务上传java Android HTTPS文件（从HTTP转换为HTTPS）
启动配置服务器组织时发生java Microservice错误。springframework。靴子上下文财产。绑定绑定结果
swing Java:无法在JFrame中显示图像

相关问题更多 >

编程相关推荐

热门问题

热门文章

PySpark：过滤掉列值在datafram中多次出现的行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >