大Pandas按时间和条件分组

| event_id | timestamp | people | | abc | 12:00 | 1 | | abc | 12:01 | 3 | | abc | 12:02 | 5 | | abc | 12:04 | 600 | | abc | 12:10 | 4 | | abc | 12:15 | 7 | | abc | 12:20 | 1700 | | abc | 12:30 | 1 | | abc | 12:31 | 1 | | xyz | 12:32 | 1 | | xyz | 12:40 | 750 | | xyz | 12:50 | 1 |

| event_id | timestamp | people | subgroup | | abc | 12:00 | 1 | A | | abc | 12:01 | 3 | A | | abc | 12:02 | 5 | A | | abc | 12:04 | 600 | A | | abc | 12:10 | 4 | B | | abc | 12:15 | 7 | B | | abc | 12:20 | 1700 | B | | abc | 12:30 | 1 | C | | abc | 12:31 | 1 | C | | xyz | 12:32 | 1 | A | | xyz | 12:40 | 750 | A | | xyz | 12:50 | 1 | B |

2条回答

网友

1楼 · 编辑于 2024-10-03 06:30:39

df.groupby('event_id').people.apply(lambda x :(x>=600).shift().fillna(0).cumsum()).\
    map({0:'A',1:'B',2:'C'})
Out[207]: 
0     A
1     A
2     A
3     A
4     B
5     B
6     B
7     C
8     C
9     A
10    A
11    B
Name: people, dtype: object

那你只需要重新分配。你知道吗

网友

2楼 · 编辑于 2024-10-03 06:30:39

from string import ascii_uppercase

m = dict(enumerate(ascii_uppercase))

def trickery(x):
    c = (x.values >= 600)[::-1].cumsum()[::-1]
    return c.max() - c

df.assign(subgroup=df.groupby('event_id').people.transform(trickery).map(m))

   event_id timestamp  people subgroup
0       abc     12:00       1        A
1       abc     12:01       3        A
2       abc     12:02       5        A
3       abc     12:04     600        A
4       abc     12:10       4        B
5       abc     12:15       7        B
6       abc     12:20    1700        B
7       abc     12:30       1        C
8       abc     12:31       1        C
9       xyz     12:32       1        A
10      xyz     12:40     750        A
11      xyz     12:50       1        B

相关问题更多 >

编程相关推荐

热门问题

热门文章