Python Pandas DataFrame按MonSun weekly定义将每日数据重采样到每周?

2024-05-17 05:41:14 发布

您现在位置:Python中文网/ 问答频道 /正文

import pandas as pd
import numpy as np

dates = pd.date_range('20141229',periods=14, name='Day')
df = pd.DataFrame({'Sum1': [1667, 1229, 1360, 9232, 8866, 4083, 3671, 10085, 10005, 8730, 10056, 10176, 3792, 3518],
                   'Sum2': [91, 75, 75, 254, 239, 108, 99, 259, 395, 355, 332, 386, 96, 111],
                   'Sum3': [365.95, 398.97, 285.12, 992.17, 1116.57, 512.11, 504.47, 1190.96, 1753.6, 1646.25, 1344.05, 1582.67, 560.95, 736.44],
                   'Sum4': [5, 5, 1, 5, 8, 8, 2, 10, 12, 16, 16, 6, 6, 3]},index=dates); print(df)

生成的df如下所示:

             Sum1  Sum2     Sum3  Sum4
Day                                   
2014-12-29   1667    91   365.95     5
2014-12-30   1229    75   398.97     5
2014-12-31   1360    75   285.12     1
2015-01-01   9232   254   992.17     5
2015-01-02   8866   239  1116.57     8
2015-01-03   4083   108   512.11     8
2015-01-04   3671    99   504.47     2
2015-01-05  10085   259  1190.96    10
2015-01-06  10005   395  1753.60    12
2015-01-07   8730   355  1646.25    16
2015-01-08  10056   332  1344.05    16
2015-01-09  10176   386  1582.67     6
2015-01-10   3792    96   560.95     6
2015-01-11   3518   111   736.44     3

假设我重新对Dataframe进行采样,尝试将每日数据汇总为每周行:

df_resampled = df.resample('W', how='sum', label='left'); print(df_resampled)

这将产生以下结果:

             Sum1  Sum2     Sum3  Sum4
Day                                   
2014-12-28  30108   941  4175.36    34
2015-01-04  56362  1934  8814.92    69

问题1我对一周的定义是周一到周日。由于我的数据开始于2014-12-29(星期一),我希望我的Daylabel也开始于那一天。我如何使Dayindexlabel成为每个星期一而不是每个星期天的日期?

期望输出:

             Sum1  Sum2     Sum3  Sum4
Day                                   
2014-12-29  30108   941  4175.36    34
2015-01-05  56362  1934  8814.92    69

关于问题1,我试过什么?

我把'W'改为'W-MON',但它通过计算2014-12-22行中的2014-12-29产生了3行,这不是我想要的:

             Sum1  Sum2     Sum3  Sum4
Day                                   
2014-12-22   1667    91   365.95     5
2014-12-29  38526  1109  5000.37    39
2015-01-05  46277  1675  7623.96    59

问题2:如何将Dayindex标签格式化为范围?例如:

                         Sum1  Sum2     Sum3  Sum4
Day                                   
2014-12-29 - 2015-01-04  30108   941  4175.36    34
2015-01-05 - 2015-01-11  56362  1934  8814.92    69

Tags: 数据importnumpypandasdfaspddates
2条回答

这可能会有帮助。

import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randint(1, 1000, (100, 4)), columns='Sum1 Sum2 Sum3 Sum4'.split(), index=pd.date_range('2014-12-29', periods=100, freq='D'))

def func(group):
    return pd.Series({'Sum1': group.Sum1.sum(), 'Sum2': group.Sum2.sum(),
        'Sum3': group.Sum3.sum(), 'Sum4': group.Sum4.sum(), 'Day': group.index[1], 'Period': '{0} - {1}'.format(group.index[0].date(), group.index[-1].date())})

df.groupby(lambda idx: idx.week).apply(func)

Out[386]: 
          Day                   Period  Sum1  Sum2  Sum3  Sum4
1  2014-12-30  2014-12-29 - 2015-01-04  3559  3692  3648  4086
2  2015-01-06  2015-01-05 - 2015-01-11  2990  3658  3348  3304
3  2015-01-13  2015-01-12 - 2015-01-18  3168  3720  3518  3273
4  2015-01-20  2015-01-19 - 2015-01-25  2275  4968  4095  2366
5  2015-01-27  2015-01-26 - 2015-02-01  4146  2167  3888  4576
..        ...                      ...   ...   ...   ...   ...
11 2015-03-10  2015-03-09 - 2015-03-15  4035  3518  2588  2714
12 2015-03-17  2015-03-16 - 2015-03-22  3399  3901  3430  2143
13 2015-03-24  2015-03-23 - 2015-03-29  3227  3308  3185  3814
14 2015-03-31  2015-03-30 - 2015-04-05  4278  3369  3623  4167
15 2015-04-07  2015-04-06 - 2015-04-07  1466   632  1136  1392

[15 rows x 6 columns]

如果其他人不知道,那么每周的Anchored Offsets是基于结束日期的。因此,仅重新采样“W”(与“W-SUN”相同)默认为周一到周日的样本。列出的日期是结束日期。请看这个old bug report,文档和API都没有更新。

假设您在resample parameters中指定了label='left',那么您一定已经意识到这一事实。这也是为什么使用“W-MON”没有达到预期效果的原因。令人困惑的是,左边界实际上不在区间内。

因此,要显示期间的开始日期而不是结束日期,可以在索引中添加一天。这意味着你会:

df_resampled.index = df_resampled.index + pd.DateOffset(days=1)

为了完整起见,这里是您的原始数据,在开始时添加了另一天(星期天),以显示分组实际上是从星期一到星期天:

import pandas as pd
import numpy as np

dates = pd.date_range('20141228',periods=15, name='Day')
df = pd.DataFrame({'Sum1': [10000, 1667, 1229, 1360, 9232, 8866, 4083, 3671, 10085, 10005, 8730, 10056, 10176, 3792, 3518],
               'Sum2': [10000, 91, 75, 75, 254, 239, 108, 99, 259, 395, 355, 332, 386, 96, 111],
               'Sum3': [10000, 365.95, 398.97, 285.12, 992.17, 1116.57, 512.11, 504.47, 1190.96, 1753.6, 1646.25, 1344.05, 1582.67, 560.95, 736.44],
               'Sum4': [10000, 5, 5, 1, 5, 8, 8, 2, 10, 12, 16, 16, 6, 6, 3]},index=dates);
print(df)
df_resampled = df.resample('W', how='sum', label='left')
df_resampled.index = df_resampled.index - pd.DateOffset(days=1)
print(df_resampled)

这将输出:

             Sum1   Sum2      Sum3   Sum4
Day
2014-12-28  10000  10000  10000.00  10000
2014-12-29   1667     91    365.95      5
2014-12-30   1229     75    398.97      5
2014-12-31   1360     75    285.12      1
2015-01-01   9232    254    992.17      5
2015-01-02   8866    239   1116.57      8
2015-01-03   4083    108    512.11      8
2015-01-04   3671     99    504.47      2
2015-01-05  10085    259   1190.96     10
2015-01-06  10005    395   1753.60     12
2015-01-07   8730    355   1646.25     16
2015-01-08  10056    332   1344.05     16
2015-01-09  10176    386   1582.67      6
2015-01-10   3792     96    560.95      6
2015-01-11   3518    111    736.44      3

             Sum1   Sum2      Sum3   Sum4
Day                                      
2014-12-22  10000  10000  10000.00  10000
2014-12-29  30108    941   4175.36     34
2015-01-05  56362   1934   8814.92     69

我相信这就是你第一个问题想要的。

更新

现在,^{}有一个loffset参数,允许您移动标签偏移量。因此,不必修改索引,只需像这样添加loffset参数:

df.resample('W', how='sum', label='left', loffset=pd.DateOffset(days=1))

另一个值得注意的是,how=sum现在被弃用,取而代之的是在.resample()返回的重采样器对象上使用.sum()。因此,完全更新的调用将是:

df_resampled = df.resample('W', label='left', loffset=pd.DateOffset(days=1)).sum()

相关问题 更多 >