Pandas用Nan替换重复项并保留行

import pandas as pd from datetime import timedelta df = pd.DataFrame({ 'date': ['2019-01-01 00:00:00','2019-01-01 01:00:00','2019-01-01 02:00:00', '2019-01-01 03:00:00', '2019-09-01 02:00:00','2019-09-01 03:00:00','2019-09-01 04:00:00', '2019-09-01 05:00:00'], 'value': [10,10,10,10,12,12,12,12], 'ID': ['Jackie','Jackie','Jackie','Jackie','Zoop','Zoop','Zoop','Zoop',] }) df['date'] = pd.to_datetime(df['date'], infer_datetime_format=True) date value ID 0 2019-01-01 00:00:00 10 Jackie 1 2019-01-01 01:00:00 10 Jackie 2 2019-01-01 02:00:00 10 Jackie 3 2019-01-01 03:00:00 10 Jackie 4 2019-09-01 02:00:00 12 Zoop 5 2019-09-01 03:00:00 12 Zoop 6 2019-09-01 04:00:00 12 Zoop 7 2019-09-01 05:00:00 12 Zoop

date value ID 0 2019-01-01 00:00:00 10 Jackie 1 2019-01-01 01:00:00 NaN Jackie 2 2019-01-01 02:00:00 NaN Jackie 3 2019-01-01 03:00:00 NaN Jackie 4 2019-09-01 02:00:00 12 Zoop 5 2019-09-01 03:00:00 NaN Zoop 6 2019-09-01 04:00:00 NaN Zoop 7 2019-09-01 05:00:00 NaN Zoop

3条回答

网友

1楼 · 编辑于 2024-09-26 18:06:38

如果对数据帧进行了排序，则此操作有效-如您的示例中所示：

import numpy as np                                    # to be used for np.nan

df['duplicate'] = df['value'].shift(1)                # create a duplicate column 
df['value'] = df.apply(lambda x: np.nan if x['value'] == x['duplicate'] \
                          else x['value'], axis=1)    # conditional replace
df = df.drop('duplicate', axis=1)                     # drop helper column

网友

2楼 · 编辑于 2024-09-26 18:06:38

根据日期分组并获取第一个观察值（按时间排序时不一定是第一个），然后将结果合并回原始数据帧

df2 = df.groupby([df['date'].dt.date, 'ID'], as_index=False).first()
>>> df.drop(columns='value').merge(df2, on=['date', 'ID'], how='left')[df.columns]
                 date  value      ID
0 2019-01-01 00:00:00   10.0  Jackie
1 2019-01-01 01:00:00    NaN  Jackie
2 2019-01-01 02:00:00    NaN  Jackie
3 2019-01-01 03:00:00    NaN  Jackie
4 2019-09-01 02:00:00   12.0    Zoop
5 2019-09-01 03:00:00    NaN    Zoop
6 2019-09-01 04:00:00    NaN    Zoop
7 2019-09-01 05:00:00    NaN    Zoop

网友

3楼 · 编辑于 2024-09-26 18:06:38

我假设您检查了value列和ID列上的重复项，并进一步检查了date列的date

df.loc[df.assign(d=df.date.dt.date).duplicated(['value','ID', 'd']), 'value'] = np.nan

Out[269]:
                 date  value      ID
0 2019-01-01 00:00:00   10.0  Jackie
1 2019-01-01 01:00:00    NaN  Jackie
2 2019-01-01 02:00:00    NaN  Jackie
3 2019-01-01 03:00:00    NaN  Jackie
4 2019-09-01 02:00:00   12.0    Zoop
5 2019-09-01 03:00:00    NaN    Zoop
6 2019-09-01 04:00:00    NaN    Zoop
7 2019-09-01 05:00:00    NaN    Zoop

正如@Trenton所建议的，您可以使用pd.NA来避免导入numpy

（注意：as@rafaelc sugguest:下面是解释pd.NA和np.nan{a1}之间细节差异的链接）

df.loc[df.assign(d=df.date.dt.date).duplicated(['value','ID', 'd']), 'value'] = pd.NA

Out[273]:
                 date value      ID
0 2019-01-01 00:00:00    10  Jackie
1 2019-01-01 01:00:00  <NA>  Jackie
2 2019-01-01 02:00:00  <NA>  Jackie
3 2019-01-01 03:00:00  <NA>  Jackie
4 2019-09-01 02:00:00    12    Zoop
5 2019-09-01 03:00:00  <NA>    Zoop
6 2019-09-01 04:00:00  <NA>    Zoop
7 2019-09-01 05:00:00  <NA>    Zoop

相关问题更多 >

编程相关推荐

热门问题

热门文章