我见过几个这样的问题,但对我的情况来说不是一个令人满意的答案。下面是一个示例数据帧:
+------+-----+----+
| id|value|type|
+------+-----+----+
|283924| 1.5| 0|
|283924| 1.5| 1|
|982384| 3.0| 0|
|982384| 3.0| 1|
|892383| 2.0| 0|
|892383| 2.5| 1|
+------+-----+----+
我只想通过"id"
和"value"
列来识别重复项,然后删除所有实例。你知道吗
在这种情况下:
输出为:
+------+-----+----+
| id|value|type|
+------+-----+----+
|892383| 2.5| 1|
|892383| 2.0| 0|
+------+-----+----+
我试过了
df.dropDuplicates(subset = ['id', 'value'], keep = False)
但是“keep”特性不在PySpark中(就像在^{
我还能怎么做?你知道吗
您可以使用窗口函数来实现这一点
您可以
groupBy
、id
和type
来获取计数。然后使用join
过滤掉数据帧中计数不是1的行:相关问题 更多 >
编程相关推荐