Pandas数据框中的假日日历

2024-09-29 01:30:02 发布

您现在位置:Python中文网/ 问答频道 /正文

我为德国创建了一个假日日历(不包括所有日期),如下所示:

from pandas.tseries.holiday import Holiday,AbstractHolidayCalendar

class GermanHolidays(AbstractHolidayCalendar):
    rules = [Holiday('New Years Day', month=1, day=1),
             Holiday('First of May', month=5, day=1),
             Holiday('German Unity Day', month=10,day=3),
            ...]

cal = GermanHolidays()

现在我希望在假日出现或不带(“1”或“0”)时显示列。所以我做了以下几点:

^{pr2}$

X是一个数据帧,其中Time (CET)%d.%m.%Y %H:%M:%S格式的列。不幸的是,这不起作用。没有出现错误,但所有列都用"0"标记。所以没有匹配发生,我真的不知道为什么。 我想这可能是因为假期的频率是每天的,而不是专栏Time (CET)中的每小时。 如果你能帮助我就太好了!谢谢您!在


Tags: fromimportpandastimerulesclassholidayday
2条回答

这基本上就是你已经拥有的。假设这个方法有效,而你的不起作用,这很可能是因为值是文本,而不是@unutbu和@MaxU已经指出的时间戳。在

你的帖子还说:

displays when a holiday appears or not with ("1" or "0")

你真的想要一个文本值吗?您试图转换为浮点,但您可能只需要整数。在

X = pd.DataFrame({'Time (CET)': pd.DatetimeIndex(start='2017-01-01', end='2017-12-31', freq='12H')})
X = X.assign(Holidays=X['Time (CET)'].isin(cal.holidays()).astype(int))
>>> X
             Time (CET)  Holidays
0   2017-01-01 00:00:00         1
1   2017-01-01 12:00:00         0
2   2017-01-02 00:00:00         0
...

可能有一些原因。在

其中一个as mentioned by @unutbu - is a wrong (string) dtype。确保您的X['Time (CET)']列是datetime数据类型。可按如下方式进行:

X['Time (CET)'] = pd.to_datetime(X['Time (CET)'], dayfirst=True, errors='coerce')

你说的另一个原因是时间部分。在

下面是一个演示:

^{2}$

产量:

In [30]: df
Out[30]:
                   Date
0   2017-01-01 01:01:01
1   2017-01-01 10:01:01
2   2017-01-01 19:01:01
3   2017-01-02 04:01:01
4   2017-01-02 13:01:01
5   2017-01-02 22:01:01
6   2017-01-03 07:01:01
7   2017-01-03 16:01:01
8   2017-01-04 01:01:01
9   2017-01-04 10:01:01
..                  ...
990 2018-01-07 07:01:01
991 2018-01-07 16:01:01
992 2018-01-08 01:01:01
993 2018-01-08 10:01:01
994 2018-01-08 19:01:01
995 2018-01-09 04:01:01
996 2018-01-09 13:01:01
997 2018-01-09 22:01:01
998 2018-01-10 07:01:01
999 2018-01-10 16:01:01

[1000 rows x 1 columns]

由于时间部分不匹配,holidays筛选无效:

In [29]: df.loc[df.Date.isin(holidays)]
Out[29]:
Empty DataFrame
Columns: [Date]
Index: []

我们可以通过规范化(截断时间部分或将时间设置为00:00:00)的datetime列来使其正常工作:

In [31]: df.loc[df.Date.dt.normalize().isin(holidays)]
Out[31]:
                   Date
0   2017-01-01 01:01:01
1   2017-01-01 10:01:01
2   2017-01-01 19:01:01
320 2017-05-01 01:01:01
321 2017-05-01 10:01:01
322 2017-05-01 19:01:01
734 2017-10-03 07:01:01
735 2017-10-03 16:01:01

相关问题 更多 >