根据日期列表计算日期时间

df = fecha 0 2018-10-01 1 2019-01-12 2 2018-12-25 list_ranges = [(datetime.datetime(2018, 10, 1, 0, 0), datetime.datetime(2018, 10, 15, 0, 0)), (datetime.datetime(2018, 10, 16, 0, 0), datetime.datetime(2018, 10, 31, 0, 0)), (datetime.datetime(2018, 11, 1, 0, 0), datetime.datetime(2018, 11, 15, 0, 0)), (datetime.datetime(2018, 11, 16, 0, 0), datetime.datetime(2018, 11, 30, 0, 0)), (datetime.datetime(2018, 12, 1, 0, 0), datetime.datetime(2018, 12, 15, 0, 0)), (datetime.datetime(2018, 12, 16, 0, 0), datetime.datetime(2018, 12, 31, 0, 0)), (datetime.datetime(2019, 1, 1, 0, 0), datetime.datetime(2019, 1, 15, 0, 0))]

df.fecha = df.fecha.apply(lambda x: select_quincena(x, quincenas)) def select_quincena(fecha, quincenas): fecha = datetime.datetime.combine(fecha, datetime.datetime.min.time()) num = 0 for e in quincenas: num += 1 if fecha >= e[0] and fecha <= e[1]: return num

1条回答

网友

1楼 · 发布于 2024-06-25 23:39:09

使用^{}，而不是`datetime`模块

首先将您的系列转换为熊猫datetime：

df['fecha'] = pd.to_datetime(df['fecha'])

使用^{}来分类

这是一个装箱问题。您可以使用pd.cut作为矢量化解决方案：

import numpy as np
from operator import itemgetter

dates = pd.to_datetime([list_ranges[0][0], *map(itemgetter(1), list_ranges)]).values
labels = np.arange(1, len(dates))

df['result'] = pd.cut(df['fecha'].values, bins=dates, labels=labels, include_lowest=True)

print(df)

       fecha result
0 2018-10-01      1
1 2019-01-12      7
2 2018-12-25      6

整数标签使用^{}

在这种情况下，还可以使用二进制搜索来查找所需的插入点。这在np.searchsorted中得到了有效的实现。你知道吗

df['result'] = np.searchsorted(dates, df['fecha'].values, side='right')

处理`Cannot cast array data`错误

以上测试适用于熊猫0.23.4/NumPy 1.15.1。对于其他版本，类型比较可能不一致。在这种情况下，可以将datetime数组转换为整数，方法是将.values的每次提取替换为.values.astype('datetime64[D]').astype(int)。你知道吗

使用^{}，而不是`datetime`模块

使用^{}来分类

整数标签使用^{}

处理`Cannot cast array data`错误

相关问题更多 >

编程相关推荐

热门问题

热门文章