Pandas groupby+重新抽样/时间分组，用于从s问题的回答

Pandas groupby+重新抽样/时间分组，用于从s

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个员工工资数据的数据框架（示例如下），其中“日期”是指员工工资生效的时间： <pre><code>Employee Date Salary PersonA 1/1/2016 $50000 PersonB 3/5/2014 $65000 PersonB 3/1/2015 $75000 PersonB 3/1/2016 $100000 PersonC 5/15/2010 $75000 PersonC 6/3/2011 $100000 PersonC 3/10/2012 $110000 PersonC 9/5/2012 $130000 PersonC 3/1/2013 $150000 PersonC 3/1/2014 $200000 </code></pre> 在这个例子中，PersonA今年起薪50000美元，PersonC已经在公司工作了一段时间，自从2010年5月15日开始工作以来，已经收到了几次加薪。在 我需要将<code>Date</code>列转换为<code>Months from Start</code>，其中<code>Months from Start</code>将以<code>m</code>个月为增量（由我指定）。例如，对于PersonB，假设<code>m=12</code>，结果将是： ^{pr2}$ 这意味着在第0个月（就业开始）时，PersonB的工资是65000美元；12个月后他的工资是65000美元，24个月后他的工资是75000美元。在未来的一个月内，将不会有超过36个月的就业增长（请注意，在未来的一个月内不会出现）。在 再次注意，我希望能够将<code>m</code>调整为任何月份的增量。如果我想要6个月的增量（<code>m=6</code>），结果是： <pre><code>Employee Months From Start Salary PersonB 0 $65000 PersonB 6 $65000 PersonB 12 $65000 PersonB 18 $75000 PersonB 24 $100000 PersonB 30 $100000 </code></pre> 最后一步，我还想在转换后的数据帧中包含该员工截至今日的工资。再次使用PersonB，并假设<code>m=6</code>，这意味着结果将是： <pre><code>Employee Months From Start Salary PersonB 0 $65000 PersonB 6 $65000 PersonB 12 $65000 PersonB 18 $75000 PersonB 24 $100000 PersonB 30 $100000 PersonB 32.92 $100000 <--added (today is 32.92 months from start) </code></pre> 问题：是否有一种编程方式（我假设使用至少一种：<code>groupby</code>、<code>resample</code>或{<cd11>}）来实现上述所需的数据帧？在 注意：你可以假设所有员工都在工作（没有离开公司）。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

好吧，在回答的第一部分，我会这样做。。。在 <pre><code>import numpy as np import pandas as pd df = pd.DataFrame({ 'Employee': ['PersonA', 'PersonB', 'PersonB', 'PersonB', 'PersonC', 'PersonC', 'PersonC', 'PersonC', 'PersonC', 'PersonC'], 'Date': ['1/1/2016', '3/5/2014', '3/1/2015', '3/1/2016', '5/15/2010', '6/3/2011', '3/10/2012', '9/5/2012', '3/1/2013', '3/1/2014'], 'Salary': [50000 , 65000 , 75000 , 100000 , 75000 , 100000 , 110000 , 130000 , 150000 , 200000] }) df.Date = pd.to_datetime(df.Date) m = 6 emp_groups = df.groupby('Employee') df['months_from_start'] = df.Date - emp_groups.Date.transform(min) df.months_from_start = df.months_from_start.dt.days / 30 // m * m </code></pre> <code>m</code>可以是任何你想要的。我在计算<code>min</code>日期之间的天数，然后除以一个月内的大致天数，然后进行一点整数除法，将窗口大小“四舍五入”。在 这会给你这样的东西。。。在 ^{pr2}$ 第二部分有点棘手。我会创建一个新的df和concat到第一个。。。在 <pre><code>last_date_df = emp_groups.last() last_date_df.months_from_start = (last_date_df.Date - emp_groups.first().Date).dt.days / 30 last_date_df.reset_index(inplace=True) pd.concat([df, last_date_df], axis=0) </code></pre> 让你。。。在 <pre><code> Date Employee Salary months_from_start 0 2016-01-01 PersonA 50000 0.000000 1 2014-03-05 PersonB 65000 0.000000 2 2015-03-01 PersonB 75000 12.000000 3 2016-03-01 PersonB 100000 24.000000 4 2010-05-15 PersonC 75000 0.000000 5 2011-06-03 PersonC 100000 12.000000 6 2012-03-10 PersonC 110000 18.000000 7 2012-09-05 PersonC 130000 24.000000 8 2013-03-01 PersonC 150000 30.000000 9 2014-03-01 PersonC 200000 42.000000 0 2016-01-01 PersonA 50000 0.000000 1 2016-03-01 PersonB 100000 24.233333 2 2014-03-01 PersonC 200000 46.200000 </code></pre>

Pandas groupby+重新抽样/时间分组，用于从s

1 个回答

相关Python问题