如何在Pandas第二栏的基础上消除重复？

import pandas as pd df = pd.DataFrame({ 'year': [2017, 2018, 2018, 2019, 2019], 'date': ['01.01.2017', '22.04.2018', '31.01.2018', '19.03.2019', '03.12.2019'], 'id': ['72297143', '6de190ee', '0e1e8e89', 'ab4f99ab', '7d81a711'] })

2条回答

网友

1楼 · 编辑于 2024-09-29 20:23:44

在sort_values之后使用drop_duplicated

df.date=pd.to_datetime(df.date,dayfirst=True)
yourdf=df.sort_values('date').drop_duplicates('year',keep='last')
yourdf
Out[413]: 
   year       date        id
0  2017 2017-01-01  72297143
1  2018 2018-04-22  6de190ee
4  2019 2019-12-03  7d81a711
yourdf.drop('id',axis=1,inplace=True)

网友

2楼 · 编辑于 2024-09-29 20:23:44

然后排序…

非常类似于@WeNYoBen。不同之处在于，我维护现有的date不管它是什么，并按转换后的值排序

df.iloc[pd.to_datetime(df.date, dayfirst=True).argsort()] \
  .drop_duplicates('year', keep='last')

   year        date        id
0  2017  01.01.2017  72297143
1  2018  22.04.2018  6de190ee
4  2019  03.12.2019  7d81a711

`groupby`和`idxmax`

同样，我保留了date中的原始数据类型。如果您想要实际的日期时间，将结果分配给数据帧是很简单的

df.loc[pd.to_datetime(df.date, dayfirst=True).groupby(df.year).idxmax()]

   year        date        id
0  2017  01.01.2017  72297143
1  2018  22.04.2018  6de190ee
4  2019  03.12.2019  7d81a711

然后排序…

`groupby`和`idxmax`

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Pandas第二栏的基础上消除重复？

然后排序…

groupby和idxmax

相关问题 更多 >

编程相关推荐

热门问题

热门文章

`groupby`和`idxmax`

相关问题更多 >