Pandas分组时间间隔

import pandas as pd DF1 = pd.DataFrame({'User' : pd.Series(["User01", "User02"], index=['1', '2']), 'Time start' : pd.Series(["01/01/2014 08:12:00", "01/03/2014 07:21:44"], index=['1', '2']),'Time end' : pd.Series(["01/01/2014 08:13:43", "01/04/2014 01:07:01"], index=['1', '2'])}) DF2 = pd.DataFrame({'User' : pd.Series(["User01","User01","User02", "User02"], index=['1', '2','3','4']), 'Time' : pd.Series(["01/03/2014 04:11:00", "01/01/2014 08:10:00","01/03/2014 09:11:00","01/02/2014 011:10:00"], index=['1', '2','3', '4']),'Value' : pd.Series([9,12,3,21], index=['1', '2','3','4'])}) DF3 = pd.DataFrame({'User' : pd.Series(["User01", "User02"], index=['1', '2']), 'Time start' : pd.Series(["01/01/2014 08:12:00", "01/03/2014 07:21:44"], index=['1', '2']),'Time end' : pd.Series(["01/01/2014 08:13:43", "01/04/2014 01:07:01"], index=['1', '2']),'Mean' : pd.Series(["Nan", 3], index=['1', '2']),'Max' : pd.Series(["Nan", 3], index=['1', '2']),'StDev' : pd.Series(["Nan", 0], index=['1', '2'])})

1条回答

网友

1楼 · 发布于 2024-09-24 00:34:01

首先，合并DF1和DF2

df = DF2.merge(DF1,on="User")

如果时间介于时间开始和时间结束之间，则创建一个指示符（“keep”）

^{pr2}$

输出：

    Time                User  Value Time end            Time start       keep
 2014-01-03 04:11:00    User01  9   2014-01-01 08:13:43 2014-01-01 08:12:00 0
 2014-01-01 08:10:00    User01  12  2014-01-01 08:13:43 2014-01-01 08:12:00 0
 2014-01-03 09:11:00    User02  3   2014-01-04 01:07:01 2014-01-03 07:21:44 1
 2014-01-02 11:10:00    User02  21  2014-01-04 01:07:01 2014-01-03 07:21:44 0

现在只保留keep=1的行

df = df.loc[df.keep==1,:]

现在使用groupby对df进行聚集

df4 = df.groupby("User")["Value"].agg(['max','mean','std']).reset_index()

输出：

    User    max mean    std
    User02  3   3   NaN

与df4合并

DF1.merge(df4.reset_index(), on="User",how="left")

输出：

 Time end           Time start          User    max mean std
2014-01-01 08:13:43 2014-01-01 08:12:00 User01  NaN NaN NaN
2014-01-04 01:07:01 2014-01-03 07:21:44 User02  3.0 3.0 NaN

相关问题更多 >

编程相关推荐

热门问题

热门文章