Pandas groupby+重新抽样/时间分组，用于从s问题的回答

Pandas groupby+重新抽样/时间分组，用于从s

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个员工工资数据的数据框架（示例如下），其中“日期”是指员工工资生效的时间： <pre><code>Employee Date Salary PersonA 1/1/2016 $50000 PersonB 3/5/2014 $65000 PersonB 3/1/2015 $75000 PersonB 3/1/2016 $100000 PersonC 5/15/2010 $75000 PersonC 6/3/2011 $100000 PersonC 3/10/2012 $110000 PersonC 9/5/2012 $130000 PersonC 3/1/2013 $150000 PersonC 3/1/2014 $200000 </code></pre> 在这个例子中，PersonA今年起薪50000美元，PersonC已经在公司工作了一段时间，自从2010年5月15日开始工作以来，已经收到了几次加薪。在 我需要将<code>Date</code>列转换为<code>Months from Start</code>，其中<code>Months from Start</code>将以<code>m</code>个月为增量（由我指定）。例如，对于PersonB，假设<code>m=12</code>，结果将是： ^{pr2}$ 这意味着在第0个月（就业开始）时，PersonB的工资是65000美元；12个月后他的工资是65000美元，24个月后他的工资是75000美元。在未来的一个月内，将不会有超过36个月的就业增长（请注意，在未来的一个月内不会出现）。在 再次注意，我希望能够将<code>m</code>调整为任何月份的增量。如果我想要6个月的增量（<code>m=6</code>），结果是： <pre><code>Employee Months From Start Salary PersonB 0 $65000 PersonB 6 $65000 PersonB 12 $65000 PersonB 18 $75000 PersonB 24 $100000 PersonB 30 $100000 </code></pre> 最后一步，我还想在转换后的数据帧中包含该员工截至今日的工资。再次使用PersonB，并假设<code>m=6</code>，这意味着结果将是： <pre><code>Employee Months From Start Salary PersonB 0 $65000 PersonB 6 $65000 PersonB 12 $65000 PersonB 18 $75000 PersonB 24 $100000 PersonB 30 $100000 PersonB 32.92 $100000 <--added (today is 32.92 months from start) </code></pre> 问题：是否有一种编程方式（我假设使用至少一种：<code>groupby</code>、<code>resample</code>或{<cd11>}）来实现上述所需的数据帧？在 注意：你可以假设所有员工都在工作（没有离开公司）。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

您可以结合groupby和resample来执行此操作。要使用重采样，需要将日期作为索引。在 <pre><code>df.index = pd.to_datetime(df.Date) df.drop('Date',axis = 1, inplace = True) </code></pre> 然后： ^{pr2}$ 在这个例子中，我用了6个月的周期。请注意，它将在每个月的最后一天，我希望这不会是一个问题。然后你将得到： <pre><code> Employee Date Salary 0 PersonA 2016-01-31 $50000 1 PersonB 2014-03-31 $65000 2 PersonB 2014-09-30 $65000 3 PersonB 2015-03-31 $75000 4 PersonB 2015-09-30 $75000 5 PersonB 2016-03-31 $100000 6 PersonC 2010-05-31 $75000 7 PersonC 2010-11-30 $75000 8 PersonC 2011-05-31 $75000 9 PersonC 2011-11-30 $100000 10 PersonC 2012-05-31 $110000 11 PersonC 2012-11-30 $130000 12 PersonC 2013-05-31 $150000 13 PersonC 2013-11-30 $150000 14 PersonC 2014-05-31 $200000 </code></pre> 现在可以创建“months since started”列（cumcount函数检查每行在其组中出现的顺序）。记住用每个周期的月数乘以它（在本例中为6）： <pre><code>df['Months since started'] = df.groupby('Employee').cumcount()*6 Employee Date Salary Months since started 0 PersonA 2016-01-31 $50000 0 1 PersonB 2014-03-31 $65000 0 2 PersonB 2014-09-30 $65000 6 3 PersonB 2015-03-31 $75000 12 4 PersonB 2015-09-30 $75000 18 5 PersonB 2016-03-31 $100000 24 6 PersonC 2010-05-31 $75000 0 7 PersonC 2010-11-30 $75000 6 8 PersonC 2011-05-31 $75000 12 9 PersonC 2011-11-30 $100000 18 10 PersonC 2012-05-31 $110000 24 11 PersonC 2012-11-30 $130000 30 12 PersonC 2013-05-31 $150000 36 13 PersonC 2013-11-30 $150000 42 14 PersonC 2014-05-31 $200000 48 </code></pre> 希望有帮助！在

Pandas groupby+重新抽样/时间分组，用于从s

1 个回答

相关Python问题