计算pyspark rdd中包含缺失值的列的平均值和中值

2024-10-02 00:22:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我用的是PySpark。rdd有一列具有浮点值,其中有些行丢失。缺少的行只是空字符串“”。在

现在,我想在空字符串的位置写出列的平均值和中值,但是如何计算平均值呢?在

因为rdd平均值()函数无法处理包含空字符串的浮动列。在

import numpy as np

def replaceEmpty(x):
    if x=='':
        x = np.nan
    return x

def fillNA(x):
    mu = np.nanmean(np.array(x))
    if x==np.nan:
        x = mu
    return x    

data = data.map(lambda x: replaceEmpty(x))    
data = data.map(lambda x: fillNA(x))

但这种方法并不真正奏效!在


Tags: lambda字符串mapdatareturnifdefnp

热门问题