pandas: 填充组内缺失值

df = pd.DataFrame({'trial': [1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3], 'cs_name': [np.nan, 'A1', np.nan, np.nan, np.nan, np.nan, 'B2', np.nan, 'A1', np.nan, np.nan, np.nan]}) Out[177]: cs_name trial 0 NaN 1 1 A1 1 2 NaN 1 3 NaN 1 4 NaN 2 5 NaN 2 6 B2 2 7 NaN 2 8 A1 3 9 NaN 3 10 NaN 3 11 NaN 3

cs_name trial 0 A1 1 1 A1 1 2 A1 1 3 A1 1 4 B2 2 5 B2 2 6 B2 2 7 B2 2 8 A1 3 9 A1 3 10 A1 3 11 A1 3

2条回答

网友

1楼 · 编辑于 2024-09-28 03:15:52

另一种方法是使用^{}和^{}：

In [11]: g = df.groupby('trial')

In [12]: g['cs_name'].transform(lambda s: s.loc[s.first_valid_index()])
Out[12]: 
0     A1
1     A1
2     A1
3     A1
4     B2
5     B2
6     B2
7     B2
8     A1
9     A1
10    A1
11    A1
Name: cs_name, dtype: object

这应该比使用ffill和bfill更有效。。。

并使用此项更改cs_name列：

df['cs_name'] = g['cs_name'].transform(lambda s: s.loc[s.first_valid_index()])

注意：我认为有一个方法来获取熊猫中的第一个非空对象是很好的增强，在numpy中是an open request，我认为目前没有一个方法（我可能错了！）。。。

网友

2楼 · 编辑于 2024-09-28 03:15:52

如果要避免在某些组只包含NaN时出现的错误，可以执行以下操作（请注意，我更改了df，因此对于trial=1的组只有NaN）：

df = pd.DataFrame({'trial': [1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3,1,1], 
'cs_name': [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, 'B2', np.nan, 
'A3', np.nan, np.nan, np.nan, np.nan,np.nan]})

g = data.groupby('trial')

g['cs_name'].transform(lambda s: 'No values to aggregate' if 
    pd.isnull(s).all() == True else s.loc[s.first_valid_index()])

df['cs_name'] = g['cs_name'].transform(lambda s: 'No values to aggregate' if 
    pd.isnull(s).all() == True else s.loc[s.first_valid_index()])`

这样，当程序找到某个特定组的所有NaN而不是错误时，就可以输入“No Values to aggregate”（或任何需要的值）。

希望这有帮助：）

费德里科

相关问题更多 >

编程相关推荐

热门问题

热门文章