如何在GroupBy中“折叠”符合逻辑条件的行

In [134]: df Out[134]: A ID3 DATETIME 0 BRT-481028 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 13:43:27 1 BRT-481054 4a57ed0b02fa357bf3c51cc9460e8d96 2014-10-08 14:26:19 2 BRT-481076 1a682034f8cbc542f36e46215635da9a 2014-10-08 14:29:01 3 BRT-481023 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:39:34 4 BRT-481023 f88g8d7sds799asde83b2523944p9r78 2014-10-08 18:40:18 5 BRT-481033 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:44:30 6 BRT-481032 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:46:00 7 BRT-481037 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:52:15 8 BRT-481046 db959faf023e5df33032db4808882f0c 2014-10-08 18:59:59 9 BRT-481053 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 19:17:48 10 BRT-481065 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 19:21:38

A ID3 DATETIME 0 BRT-481028 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 13:43:27 1 BRT-481054 4a57ed0b02fa357bf3c51cc9460e8d96 2014-10-08 14:26:19 2 BRT-481076 1a682034f8cbc542f36e46215635da9a 2014-10-08 14:29:01 4 BRT-481023 f88g8d7sds799asde83b2523944p9r78 2014-10-08 18:40:18 6 BRT-481032 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:46:00 7 BRT-481037 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:52:15 8 BRT-481046 db959faf023e5df33032db4808882f0c 2014-10-08 18:59:59 10 BRT-481065 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 19:21:38

In [309]: df['diff'] = df.sort_values(by='DATETIME').groupby('ID3')['DATETIME'].transform(lambda x: x.diff()) In [310]: df Out[310]: A ID3 DATETIME \ 0 BRT-481028 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 13:43:27 1 BRT-481054 4a57ed0b02fa357bf3c51cc9460e8d96 2014-10-08 14:26:19 2 BRT-481076 1a682034f8cbc542f36e46215635da9a 2014-10-08 14:29:01 3 BRT-481023 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:39:34 4 BRT-481023 f88g8d7sds799asde83b2523944p9r78 2014-10-08 18:40:18 5 BRT-481033 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:44:30 6 BRT-481032 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:46:00 7 BRT-481037 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 18:52:15 8 BRT-481046 db959faf023e5df33032db4808882f0c 2014-10-08 18:59:59 9 BRT-481053 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 19:17:48 10 BRT-481065 b76cd912ffcb97e21de83b252391b2a0 2014-10-08 19:21:38 diff 0 NaT 1 NaT 2 NaT 3 1970-01-01 04:56:07 4 NaT 5 1970-01-01 00:04:56 6 1970-01-01 00:01:30 7 1970-01-01 00:06:15 8 NaT 9 1970-01-01 00:25:33 10 1970-01-01 00:03:50

2条回答

网友

1楼 · 编辑于 2024-09-30 18:16:22

在本例中，transform()似乎没有返回与已知issue相关的正确数据类型

使用transform()确实应该在这里工作，但是，考虑到不稳定的行为，解决方法是尝试以下方法：

>> df.sort_values(by='DATETIME').groupby('ID3')['DATETIME'].diff().dt.total_seconds()
Out[168]:
0         NaN
1         NaN
2         NaN
3     17767.0
4         NaN
5       296.0
6        90.0
7       375.0
8         NaN
9      1533.0
10      230.0

这还返回一个类似索引的DF（正如transform所做的那样），并且做得很好

原始答案以及有关transform()故障的更多信息可以找到here

网友

2楼 · 编辑于 2024-09-30 18:16:22

diff正在返回具有seconds属性的Timedelta对象

解决方案（可能）

findTheDiff = lambda x: x.diff().seconds

解决方案（可能）

相关问题更多 >

编程相关推荐

热门问题

热门文章