根据另一列中的值，将PySpark Dataframe列转换为Python列表

3条回答

网友

1楼 · 编辑于 2024-09-27 21:28:04

您可以执行groupby并使用spark的collect_list函数

import pyspark.sql.functions as F   
df = spark.createDataFrame([(1, 1), (2, 0), (3, 1), (4, 1), ], ['som', 'ano'])
pyLst = df.groupby('ano').agg(F.collect_list('som').alias('pyLst')).where('ano = 1').collect()[0]['pyLst']

网友

2楼 · 编辑于 2024-09-27 21:28:04

您可以使用过滤器，然后将所需列仅收集为rdd，然后再转换为列表。您可以使用列表理解来完成此操作

看起来是这样的,

lst = [row[0] for row in sdf.filter("ano = 1").select('som').collect()]

网友

3楼 · 编辑于 2024-09-27 21:28:04

您可以先进行筛选，然后选择som列，将行收集到Python列表中，然后从每一行获取元素：

pyLst = [r[0] for r in df.filter(df.ano == 1).select('som').collect()]

print(pyLst)
[1, 3, 4]

另一种方法是首先转换为pandas数据帧，然后调用.tolist()，就像您在问题中所做的那样：

pyLst = df.filter(df.ano == 1).select('som').toPandas()['som'].tolist()

您还可以使用RDD API：

pyLst = df.filter(df.ano == 1).select('som').rdd.map(lambda r: r[0]).collect()

相关问题更多 >

编程相关推荐

热门问题

热门文章

根据另一列中的值，将PySpark Dataframe列转换为Python列表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >