根据其他列值(PySpark)从DataFrame获取值

2024-09-30 01:22:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个Spark数据帧,我想得到统计数据

stats_df = df.describe(['mycol'])
stats_df.show()
^{pr2}$

如何使用summaryminmax列值来提取min和{}的值?我怎么用数字索引?在


Tags: 数据dfstatsshow数字minspark统计数据
2条回答

您可以很容易地从该数据帧上的select中分配一个变量。在

x = stats_df.select('mycol').where('summary' == 'min')

好的,让我们考虑一下下面的例子:

from pyspark.sql.functions import rand, randn
df = sqlContext.range(1, 1000).toDF('mycol')
df.describe().show()
# +   -+        -+
# |summary|            mycol|
# +   -+        -+
# |  count|              999|
# |   mean|            500.0|
# | stddev|288.5307609250702|
# |    min|                1|
# |    max|              999|
# +   -+        -+

如果您想访问关于stddev的行,您只需将其转换为RDD,收集它并将其转换为字典,如下所示:

^{pr2}$

相关问题 更多 >

    热门问题