删除与某些行重复的所有行

+------+-----+----+ | id|value|type| +------+-----+----+ |283924| 1.5| 0| |283924| 1.5| 1| |982384| 3.0| 0| |982384| 3.0| 1| |892383| 2.0| 0| |892383| 2.5| 1| +------+-----+----+

2条回答

网友

1楼 · 编辑于 2024-09-27 07:26:00

您可以使用窗口函数来实现这一点

from pyspark.sql import Window, functions as F
df.withColumn(
  'fg', 
  F.count("id").over(Window.partitionBy("id", "value"))
).where("fg = 1").drop("fg").show()

网友

2楼 · 编辑于 2024-09-27 07:26:00

您可以groupBy、id和type来获取计数。然后使用join过滤掉数据帧中计数不是1的行：

df.join(
    df.groupBy('id', 'value').count().where('count = 1').drop('count'), on=['id', 'value']
).show()
#+   +  -+  +
#|    id|value|type|
#+   +  -+  +
#|892383|  2.5|   1|
#|892383|  2.0|   0|
#+   +  -+  +

编程相关推荐

java IntelliJ IDEA CreativeProcess错误=193，%1不是有效的Win32应用程序
在java中返回多个值（字符串和数组）
我们可以使用java驱动程序。在pom类中查找数据？
java是处理请求后数据的有效方法
用于小文件的java音频缓存安卓 studio
使用Java exec的postgresql额外psql命令行参数
java导入语句代码错误
使用服务上传java Android HTTPS文件（从HTTP转换为HTTPS）
启动配置服务器组织时发生java Microservice错误。springframework。靴子上下文财产。绑定绑定结果
swing Java:无法在JFrame中显示图像

相关问题更多 >

编程相关推荐

热门问题

热门文章

删除与某些行重复的所有行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >