大Pandas：按未知时间段分组

id,timestamp,value 00b0f3,2018-05-21 05:36:07,4 00b0f3,2018-05-21 05:36:14,6 00b0f3,2018-05-21 05:36:24,2 00b0f3,2018-05-21 05:36:40,1 00b0f3,2018-05-21 05:36:42,6 00b0f3,2018-05-21 21:54:16,3 00b0f3,2018-05-21 21:54:27,2 00b0f3,2018-05-21 21:54:30,6 00b0f3,2018-05-21 21:54:34,4 00b0f3,2018-05-21 21:54:37,9

2条回答

网友

1楼 · 编辑于 2024-05-19 11:03:05

尝试对groupby使用cumsum和布尔测试条件：

df.groupby(['id',
           (df['timestamp'].diff() > pd.Timedelta(minutes=2)).cumsum()], 
           as_index=False)['value'].sum()

输出：

       id  value
0  00b0f3     19
1  00b0f3     24

网友

2楼 · 编辑于 2024-05-19 11:03:05

可以按如下方式使用groupby和pd.Grouper：

df = df.groupby(["id",pd.Grouper(key="timestamp", freq='2min')]).sum()

结果是：

>>> df
                            value
id     timestamp                 
00b0f3 2018-05-21 05:36:00     19
       2018-05-21 21:54:00     24

如果要将id作为单独的列，可以在代码行下面运行：

df.reset_index(inplace=True)

结果DataFrame将是：

>>> df
       id           timestamp  value
0  00b0f3 2018-05-21 05:36:00     19
1  00b0f3 2018-05-21 21:54:00     24

注意

我将您的数据粘贴到csv文件中，然后导入它并创建DataFrame，如下所示：

import pandas as pd

df = pd.read_csv("D:/tmp/data.csv")
df["timestamp"] = pd.to_datetime(df["timestamp"])

注意

相关问题更多 >

编程相关推荐

热门问题

热门文章