groupby查找具有最大值的行正在将对象转换为datetim

import datetime as DT import numpy as np d = {'CIN' : pd.Series(['1e','1e','1e','2e','2e']), 'AidCode' : pd.Series([np.nan,'01','01',np.nan,'01']), 'calendar' : pd.Series([DT.datetime(2014, 3, 8), DT.datetime(2014, 3, 8),DT.datetime(2014, 5, 8),DT.datetime(2014, 6, 8),DT.datetime(2014, 6, 8)]), 'MCelig' : pd.Series([1,2,3,4,5])} dfx=pd.DataFrame(d) #testing whether it was just the np.nan that was the problem, it isn't #dfx = dfx.where((pd.notnull(dfx)), None) test=dfx.groupby(['CIN','calendar'], group_keys=False).apply(lambda x: x.ix[x.MCelig.idxmax()])

Out[820]: AidCode CIN MCelig calendar CIN calendar 1e 2014-03-08 2015-01-01 1e 2 2014-03-08 2014-05-08 2015-01-01 1e 3 2014-05-08 2e 2014-06-08 2015-01-01 2e 5 2014-06-08

1条回答

网友

1楼 · 发布于 2024-07-01 07:19:17

Pandas试图通过识别类似日期的列并将该列转换为datetime64数据类型来提供额外的帮助。这里太咄咄逼人了。你知道吗

解决方法是使用transform为每个选择最大行的组生成一个布尔掩码：

def onemax(x):
    mask = np.zeros(len(x), dtype='bool')
    idx = np.argmax(x.values)
    mask[idx] = 1
    return mask

dfx.loc[dfx.groupby(['CIN','calendar'])['MCelig'].transform(onemax).astype(bool)]

收益率

  AidCode CIN  MCelig   calendar
1      01  1e       2 2014-03-08
2      01  1e       3 2014-05-08
4      01  2e       5 2014-06-08

技术细节：当使用groupbyapply时，当单个数据帧（由应用函数返回）粘回到一个数据帧中时，Pandas会尝试猜测列具有object dtype的是类似日期的对象，如果是，则为convert the column to an actual date dtype。如果值是字符串，它会尝试将它们解析为使用dateutil.parser的日期：

无论好坏，dateutil.parser将'01'解释为日期：

In [37]: import dateutil.parser as DP

In [38]: DP.parse('01')
Out[38]: datetime.datetime(2015, 1, 1, 0, 0)

这会导致Pandas尝试将整个AidCode列转换为日期。由于没有发生错误，它认为它只是帮助了您：）

相关问题更多 >

编程相关推荐

热门问题

热门文章