使用DataFram逐行查找最近6个月内发生的事件

id_police id_sinistre datesurv 0 p123 s120 01/01/2018 1 p123 s121 03/01/2018 2 p123 s122 05/05/2018 3 p222 s123 04/05/2018 4 p222 s124 02/12/2018 5 p433 s125 07/08/2018 6 p433 s126 08/09/2018 7 p433 s127 10/10/2018

id_police id_sinistre datesurv occ 0 p123 s120 01/01/2018 0 1 p123 s121 03/01/2018 1 2 p123 s122 05/05/2018 2 3 p222 s123 04/05/2018 0 4 p222 s124 02/12/2018 0 5 p433 s125 07/08/2018 0 6 p433 s126 08/09/2018 1 7 p433 s127 10/10/2018 2

2条回答

网友

1楼 · 编辑于 2024-09-30 02:31:32

另一种选择是^{}这个datesurv，也可以使用^{}来创建6个月的组，并使用^{}：

df.datesurv = pd.to_datetime(df.datesurv, format='%d/%m/%Y')
g = pd.Grouper(key='datesurv', freq='6MS')
df.assign(occ=df.groupby(['id_police', g]).cumcount())

   id_police id_sinistre   datesurv  occ
0      p123        s120 2018-01-01    0
1      p123        s121 2018-01-03    1
2      p123        s122 2018-05-05    2
3      p222        s123 2018-05-04    0
4      p222        s124 2018-12-02    0
5      p433        s125 2018-08-07    0
6      p433        s126 2018-09-08    1
7      p433        s127 2018-10-10    2

网友

2楼 · 编辑于 2024-09-30 02:31:32

如果6个月应简化为6*30天，则使用带有diff的自定义lambda函数，按值和上次累计和进行比较：

df['datesurv'] = pd.to_datetime(df['datesurv'], dayfirst=True)

df = df.sort_values(['id_police','datesurv'])

f = lambda x: (x.diff().dt.days < 30 * 6).cumsum()
df['occ'] = df.groupby('id_police')['datesurv'].apply(f)

print (df)
  id_police id_sinistre   datesurv  occ
0      p123        s120 2018-01-01    0
1      p123        s121 2018-01-03    1
2      p123        s122 2018-05-05    2
3      p222        s123 2018-05-04    0
4      p222        s124 2018-12-02    0
5      p433        s125 2018-08-07    0
6      p433        s126 2018-09-08    1
7      p433        s127 2018-10-10    2

相关问题更多 >

编程相关推荐

热门问题

热门文章