2024-09-30 01:22:17 发布
网友
我有一个Spark数据帧,我想得到统计数据
stats_df = df.describe(['mycol']) stats_df.show()
如何使用summaryminmax列值来提取min和{}的值?我怎么用数字索引?在
summary
min
max
您可以很容易地从该数据帧上的select中分配一个变量。在
x = stats_df.select('mycol').where('summary' == 'min')
好的,让我们考虑一下下面的例子:
from pyspark.sql.functions import rand, randn df = sqlContext.range(1, 1000).toDF('mycol') df.describe().show() # + -+ -+ # |summary| mycol| # + -+ -+ # | count| 999| # | mean| 500.0| # | stddev|288.5307609250702| # | min| 1| # | max| 999| # + -+ -+
如果您想访问关于stddev的行,您只需将其转换为RDD,收集它并将其转换为字典,如下所示:
您可以很容易地从该数据帧上的select中分配一个变量。在
好的,让我们考虑一下下面的例子:
如果您想访问关于stddev的行,您只需将其转换为RDD,收集它并将其转换为字典,如下所示:
^{pr2}$相关问题 更多 >
编程相关推荐