2024-09-29 23:22:32 发布
网友
我的数据帧df:
C1 C2 C3 A 1 5 A 1 4 A 2 6 B 2 9 B 5 5
我想从C2中提取C1中每个不同值的最低值作为新的数据帧。因此,输出将是
C1 C2 A 1 B 2
我想我必须使用df.groupBy(“C1”),但我不知道如何正确地应用它
下面是另一种方法
from pyspark.sql import functions as F df.groupBy(F.col("C1")).agg({"C2":"min"}).orderBy(F.col("C1")).show()
正确的函数是df.groupBy(“C1”),这是正确的。也可以对其应用最小函数,将解决方案简化为一行:
df.groupby(['C1']).min()
它将返回输出。希望这有帮助
下面是另一种方法
正确的函数是df.groupBy(“C1”),这是正确的。也可以对其应用最小函数,将解决方案简化为一行:
它将返回输出。希望这有帮助
相关问题 更多 >
编程相关推荐