如何根据数据帧中会话的长度筛选会话

session id servertime 1 3085 2018-10-09 13:20:25.096 1 3671 2018-10-21 08:19:39.078 1 2015 2018-10-23 21:22:27.647 7 4066 2018-10-29 00:04:16.707 7 4991 2018-10-30 11:00:57.918 7 4495 2018-10-31 04:50:56.864 7 5131 2018-11-04 10:49:03.044 7 4982 2018-11-04 12:02:03.738 7 4495 2018-11-04 12:43:53.595 7 3906 2018-11-05 16:55:17.891 7 8743 2018-11-06 16:55:17.891 7 6541 2018-11-07 16:55:17.891 7 3447 2018-11-08 16:55:17.891 7 6541 2018-11-08 18:55:17.891 7 1234 2018-11-09 16:55:17.891 20 10256 2018-08-28 11:09:35.902 20 11220 2018-09-09 06:49:48.44 20 5237 2018-09-13 12:01:09.677 20 5547 2018-09-13 12:02:34.762 20 6454 2018-09-13 12:07:40.061

session id servertime 1 3085 2018-10-09 13:20:25.096 1 3671 2018-10-21 08:19:39.078 1 2015 2018-10-23 21:22:27.647 7 4495 2018-10-31 04:50:56.864 7 5131 2018-11-04 10:49:03.044 7 4982 2018-11-04 12:02:03.738 7 4495 2018-11-04 12:43:53.595 7 3906 2018-11-05 16:55:17.891 7 8743 2018-11-06 16:55:17.891 7 6541 2018-11-07 16:55:17.891 7 3447 2018-11-08 16:55:17.891 7 6541 2018-11-08 18:55:17.891 7 1234 2018-11-09 16:55:17.891 20 10256 2018-08-28 11:09:35.902 20 11220 2018-09-09 06:49:48.44 20 5237 2018-09-13 12:01:09.677 20 5547 2018-09-13 12:02:34.762 20 6454 2018-09-13 12:07:40.061

2条回答

网友

1楼 · 编辑于 2024-10-01 11:40:39

对两列使用^{}，然后使用^{}：

df['servertime'] = pd.to_datetime(df['servertime'])

df1 = (df.sort_values(['session','servertime'])
         .groupby('session', sort=False)
         .tail(10))
print (df1)
    session     id              servertime
0         1   3085 2018-10-09 13:20:25.096
1         1   3671 2018-10-21 08:19:39.078
2         1   2015 2018-10-23 21:22:27.647
5         7   4495 2018-10-31 04:50:56.864
6         7   5131 2018-11-04 10:49:03.044
7         7   4982 2018-11-04 12:02:03.738
8         7   4495 2018-11-04 12:43:53.595
9         7   3906 2018-11-05 16:55:17.891
10        7   8743 2018-11-06 16:55:17.891
11        7   6541 2018-11-07 16:55:17.891
12        7   3447 2018-11-08 16:55:17.891
13        7   6541 2018-11-08 18:55:17.891
14        7   1234 2018-11-09 16:55:17.891
15       20  10256 2018-08-28 11:09:35.902
16       20  11220 2018-09-09 06:49:48.440
17       20   5237 2018-09-13 12:01:09.677
18       20   5547 2018-09-13 12:02:34.762
19       20   6454 2018-09-13 12:07:40.061

网友

2楼 · 编辑于 2024-10-01 11:40:39

我会按日期对你的数据帧进行排序，这样它们才是有序的。然后只保留每个groupby会话的最后10行

# sort your dataframe by servertime
df = df.sort(['servertime'], ascending=[True])

# get groups by the session, and get last 10 rows
df.groupby('session').tail(10).reset_index(drop=True)

相关问题更多 >

编程相关推荐

热门问题

热门文章