Pandas重复记录如何填写空值

2条回答

网友

1楼 · 编辑于 2024-09-29 02:24:25

您可以将NaN分配给所有没有max日期的行，然后使用backfill (bfill)分配给fillna

m = df['date'].eq(df.groupby('id')['date'].transform('max'))

df['status'] = np.where(m, df['status'], np.NaN)
df['status'] = df['status'].bfill()

  snapshot   id    status       date
0    week1  111  Analysis 2019-10-10
1    week2  111  Analysis 2019-10-17
2    week3  111  Analysis 2019-10-23

注意
如果您的date列还没有datetime类型，请首先转换它：

df['date'] = pd.to_datetime(df['date'])

网友

2楼 · 编辑于 2024-09-29 02:24:25

我将按id分组，只选择状态为Null的id，并用最后一个状态替换这些组中的所有状态值。代码可以是：

for _, sub in df.groupby('id'):
    if len(sub.loc[sub['status'].str.match('Null')]) > 0:   # at least one Null in group
        dat = sub['date'].max()                             # max date in group
        status = sub.loc[sub['date']==dat, 'status'].iat[0] # last status
        if status != 'Null':                                # caution...
            df.loc[sub.index, 'status'] = status

如果date列的类型为string或date，则该方法的效果相同

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas重复记录如何填写空值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >