Pyspark:如何提取每个键的最低值?

2024-09-29 23:22:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我的数据帧df:

C1    C2    C3
A     1     5
A     1     4
A     2     6
B     2     9
B     5     5

我想从C2中提取C1中每个不同值的最低值作为新的数据帧。因此,输出将是

C1    C2
A     1
B     2

我想我必须使用df.groupBy(“C1”),但我不知道如何正确地应用它


Tags: 数据dfgroupbyc2c1c3最低值
2条回答

下面是另一种方法

from pyspark.sql import functions as F

df.groupBy(F.col("C1")).agg({"C2":"min"}).orderBy(F.col("C1")).show()

正确的函数是df.groupBy(“C1”),这是正确的。也可以对其应用最小函数,将解决方案简化为一行:

df.groupby(['C1']).min()

它将返回输出。希望这有帮助

相关问题 更多 >

    热门问题