一种快速、有效的方法来计算大Pandas行组之间的时间差？问题的回答

一种快速、有效的方法来计算大Pandas行组之间的时间差？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

假设我在一个数据框中有这个表，其中有几辆车的加油日期： <pre><code>+-------+-------------+ | carId | refill_date | +-------+-------------+ | 1 | 2020-03-01 | +-------+-------------+ | 1 | 2020-03-12 | +-------+-------------+ | 1 | 2020-04-04 | +-------+-------------+ | 2 | 2020-03-07 | +-------+-------------+ | 2 | 2020-03-26 | +-------+-------------+ | 2 | 2020-04-01 | +-------+-------------+ </code></pre> 我想添加第三列，<code>time_elapsed</code>，其中包含每次重新填充之间的持续时间 <pre><code>+-------+-------------+--------------+ | carId | refill_date | time_elapsed | +-------+-------------+--------------+ | 1 | 2020-03-01 | | +-------+-------------+--------------+ | 1 | 2020-03-12 | 11 | +-------+-------------+--------------+ | 1 | 2020-04-04 | 23 | +-------+-------------+--------------+ | 2 | 2020-03-07 | | +-------+-------------+--------------+ | 2 | 2020-03-26 | 19 | +-------+-------------+--------------+ | 2 | 2020-04-01 | 6 | +-------+-------------+--------------+ </code></pre> 下面是我的工作： <pre class="lang-py prettyprint-override"><code>import pandas as pd df = pd.DataFrame data = [ { "carId": 1, "refill_date": "2020-3-1" }, { "carId": 1, "refill_date": "2020-3-12" }, { "carId": 1, "refill_date": "2020-4-4" }, { "carId": 2, "refill_date": "2020-3-7" }, { "carId": 2, "refill_date": "2020-3-26" }, { "carId": 2, "refill_date": "2020-4-1" } ] df = pd.DataFrame(data) df['refill_date'] = pd.to_datetime(df['refill_date']) for c in df['carId'].unique(): df.loc[df['carId'] == c, 'time_elapsed'] = df.loc[df['carId'] == c, 'refill_date'].diff() </code></pre> 它返回预期结果： <pre><code>+---+-------+-------------+--------------+ | | carId | refill_date | time_elapsed | +---+-------+-------------+--------------+ | 0 | 1 | 2020-03-01 | NaT | +---+-------+-------------+--------------+ | 1 | 1 | 2020-03-12 | 11 days | +---+-------+-------------+--------------+ | 2 | 1 | 2020-04-04 | 23 days | +---+-------+-------------+--------------+ | 3 | 2 | 2020-03-07 | NaT | +---+-------+-------------+--------------+ | 4 | 2 | 2020-03-26 | 19 days | +---+-------+-------------+--------------+ | 5 | 2 | 2020-04-01 | 6 days | +---+-------+-------------+--------------+ </code></pre> 所以，看起来一切正常，但这里有一个陷阱：在我的现实生活实例中，我的数据帧包含350万行，处理需要很长时间，即使它是一个完全数字的内存计算，“只有”1711个组可以循环 有没有其他更快捷的方法 谢谢

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

一种快速、有效的方法来计算大Pandas行组之间的时间差？

1 个回答

相关Python问题