Python pandas用另一个variab的模式来填充一个变量的缺失值

2024-09-28 22:05:36 发布

1971

男 | 程序猿一只，喜欢编程写python代码。

我希望用另一列的值的模式来填充一列的缺失值。假设这是我们的数据集（借用自Chris Albon）：

import pandas as pd
import numpy as np

raw_data = {'first_name': ['Jake', 'Jake', 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', 'Smith', 'Ali', 'Milner', 'Cooze'], 
        'age': [42, np.nan, 36, 24, 73], 
        'sex': ['m', np.nan, 'f', 'm', 'f'], 
        'preTestScore': [4, np.nan, np.nan, 2, 3],
        'postTestScore': [25, np.nan, np.nan, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'sex', 'preTestScore', 'postTestScore'])
df

我知道我们可以用每个性别的平均值来填写缺失的postTestScore：

df["postTestScore"].fillna(df.groupby("sex")["postTestScore"].transform("mean"), inplace=True) df

但是我们如何用每个名字的sex模式值来填充缺失的sex（显然这在政治上是不正确的，但是作为一个例子，这是一个很容易使用的数据集）。所以在这个例子中，缺少的性值应该是'm'，因为有两个Jake's的值是'm'。如果有一个值为'f'的Jake，它仍然会选择'm'作为模式值，因为2>；1。如果你能做到：

df["sex"].fillna(df.groupby("first_name")["sex"].transform("mode"), inplace=True) df

我调查了价值计算和申请，但没有找到这个具体的案例。我的最终目标是能够查看一列，如果该列没有模式值，则可以查看另一列中的模式值。在

Tags：数据 name import df data raw as np

1条回答

网友

1楼 · 发布于 2024-09-28 22:05:36

您需要用pd.Series.mode调用mode函数

df.groupby("first_name")["sex"].transform(pd.Series.mode)
Out[432]: 
0    m
1    m
2    f
3    m
4    f
Name: sex, dtype: object

Python pandas用另一个variab的模式来填充一个变量的缺失值

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python pandas用另一个variab的模式来填充一个变量的缺失值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >