将组的最后一个值替换为NaN

2024-09-29 21:42:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我的目标是用NaN替换每个id的最后一个值(或最后几个值)。我的真实数据集相当大,有不同大小的组

例如:

import pandas as pd

ids = [1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3,3]
year = [2000,2001,2002,2003,2004,2005,1990,1991,1992,1993,1994,1995,2010,2011,2012,2013,2014,2015]
percent = [120,70,37,40,50,110,140,100,90,5,52,80,60,40,70,60,50,110]

dictex ={"id":ids,"year":year,"percent [%]": percent}
dfex = pd.DataFrame(dictex)
print(dfex)

           id               year           percent [%]
0           1               2000                  120
1           1               2001                   70
2           1               2002                   37
3           1               2003                   40
4           1               2004                   50
5           1               2005                  110
6           2               1990                  140
7           2               1991                  100
8           2               1992                   90
9           2               1993                    5
10          2               1994                   52
11          2               1995                   80
12          3               2010                   60
13          3               2011                   40
14          3               2012                   70
15          3               2013                   60
16          3               2014                   50
17          3               2015                  110

我的目标是将每个id(组)的“百分比[%]”列的最后1/或2/或3个值替换为NaN

结果如下:(此处:替换每个id的最后2个值)

           id               year           percent [%]
0           1               2000                  120
1           1               2001                   70
2           1               2002                   37
3           1               2003                   40
4           1               2004                  NaN
5           1               2005                  NaN
6           2               1990                  140
7           2               1991                  100
8           2               1992                   90
9           2               1993                    5
10          2               1994                  NaN
11          2               1995                  NaN
12          3               2010                   60
13          3               2011                   40
14          3               2012                   70
15          3               2013                   60
16          3               2014                  NaN
17          3               2015                  NaN

我知道应该有一个相对简单的解决方案,但我对python还不熟悉,只是还没有找到一个优雅的方法。 谢谢你的帮助


Tags: 数据importidids目标dataframepandasas
1条回答
网友
1楼 · 发布于 2024-09-29 21:42:28

尝试使用^{}^{}^{}查找要修改的行的索引,并使用^{}更改值

nrows = 2
idx = df.groupby('id').tail(nrows).index
df.loc[idx, 'percent [%]'] = np.nan

#output
    id  year    percent [%]
0   1   2000    120.0
1   1   2001    70.0
2   1   2002    37.0
3   1   2003    40.0
4   1   2004    NaN
5   1   2005    NaN
6   2   1990    140.0
7   2   1991    100.0
8   2   1992    90.0
9   2   1993    5.0
10  2   1994    NaN
11  2   1995    NaN
12  3   2010    60.0
13  3   2011    40.0
14  3   2012    70.0
15  3   2013    60.0
16  3   2014    NaN
17  3   2015    NaN

相关问题 更多 >

    热门问题