当pandas中出现小数据时，DataFrame.resample()被调用时，内存不足

from pandas import * import numpy as np df = DataFrame({ 'username' : ["bob","bob","nancy"], 'session' : ["one","two","three"], 'timestamp' : [np.datetime64("2012-12-12 17:53:36"),np.datetime64("2012-12-13 17:53:36"),np.datetime64("2012-12-14 17:53:36")] })

--------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-44-01a264cf511c> in <module>() ----> 1 df.resample("1D", how="sum") /usr/local/lib/python2.7/dist-packages/pandas/core/generic.pyc in resample(self, rule, how, axis, fill_method, closed, label, convention, kind, loffset, limit, base) 288 fill_method=fill_method, convention=convention, 289 limit=limit, base=base) --> 290 return sampler.resample(self) 291 292 def first(self, offset): /usr/local/lib/python2.7/dist-packages/pandas/tseries/resample.pyc in resample(self, obj) 98 return obj 99 else: # pragma: no cover --> 100 raise TypeError('Only valid with DatetimeIndex or PeriodIndex') 101 102 rs_axis = rs._get_axis(self.axis) TypeError: Only valid with DatetimeIndex or PeriodIndex

import random import md5 def gethash(i): return md5.new(str(random.random())).hexdigest() def gettimestamp(i): return np.datetime64("2012-" + str(random.randint(10,12)) + "-" + str(random.randint(10,28)) + " 17:53:36") df = DataFrame({ 'username' : map(gethash,xrange(10000)), 'session' : map(gethash,xrange(10000)), 'timestamp' : map(gettimestamp,xrange(10000)) }) df["cnt"]=1 df.set_index(["timestamp","username","session"], inplace=True) df.unstack().unstack().resample("1D",how="min")

1条回答

网友

1楼 · 发布于 2024-07-03 02:16:30

你需要做这样的事。解释如下。在

设置时间戳索引，对时间戳索引进行排序（就像我在这里所做的那样，您不需要排序，而重采样需要排序）。然后以任何你想要的频率（在本例中是1D）执行重采样；这相当于一次重采样，但它只是“分组”，不进行计算（还没有）。在

然后在apply中进行计算，在本例中是另一个groupby。在

In [74]: df.set_index('timestamp').sort_index().groupby(pd.TimeGrouper('1D')).apply(lambda x: x.groupby(['username','session']).sum())
Out[74]: 
                             cnt
           username session     
2012-12-12 bob      one        1
2012-12-13 bob      two        1
2012-12-14 nancy    three      1

[3 rows x 1 columns]

ATM不可能一次完成所有操作（这里是一个未完成的请求：https://github.com/pydata/pandas/issues/3794

您的示例太简单，无法返回任何有趣的内容（而且您的大型示例太随机，没有足够的分组）。在

这不应该是内存问题。你几乎永远不想在一个大集合上连续两次取消堆叠，因为它有利于内存。在

相关问题更多 >

编程相关推荐

热门问题

热门文章