如何检查同一数据帧列中的重复值，并通过基于频率删除行来应用if条件？

2条回答

网友

1楼 · 编辑于 2024-10-06 12:06:13

派斯帕克解决方案。您可以在适当排序和分区的窗口上使用row_number，并获取行号为1的行

from pyspark.sql import functions as F, Window

df2 = df.withColumn(
    'rn', 
    F.row_number().over(Window.partitionBy('name').orderBy(F.desc('frequency')))
).filter('rn = 1').drop('rn')

df2.show()
+  -+      +   +    -+
| name|    Location|Rating|Frequency|
+  -+      +   +    -+
|Ahmad|       Kebab|1 star|       10|
|  Abu|    Mcdonald|3 star|        3|
|  Lee|       Fries|1 star|        3|
|  Ali|Baskin Robin|4 star|        3|
+  -+      +   +    -+

网友

2楼 · 编辑于 2024-10-06 12:06:13

将^{}与^{}和最后一个排序索引一起使用：

df = (df.sort_values(['Frequency','Rating'], 
                     ascending=[False, True])
        .drop_duplicates('name')  
        .sort_index())
print (df)
    name      Location  Rating  Frequency
1    Ali  Baskin Robin  4 star          3
4    Lee         Fries  1 star          3
5    Abu      Mcdonald  3 star          3
9  Ahmad         Kebab  1 star         10

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何检查同一数据帧列中的重复值，并通过基于频率删除行来应用if条件？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >