对于Pandas数据帧,我正在寻找一种矢量化的方法来计算每个给定组的视图数的累计和,除了一个多星期前的视图。我试过各种应用程序功能,但我似乎不能上下7天收集我需要的数据。在
我有一个可以处理少量数据的函数,但是因为它是一个循环,所以对所有数据都要花费太长的时间。有2500多个组,每个组有大约100个日期填写。总共有250000多条记录。在
例如,我考虑过使用shift,但由于不是所有组都填写了所有日期,所以这不起作用。我也试过用地图功能,这看起来也太长了。在
我的熊猫数据框是这样的:
GROUP DAY VIEWS VIEWS_CUM
165 1 2011-09-18 82 82
166 1 2011-09-19 15 97
167 1 2011-12-21 29 126
168 1 2011-12-22 15 141
169 1 2011-12-23 2 143
170 2 2012-01-07 51 51
171 2 2012-01-08 10 61
172 2 2012-01-09 11 72
173 2 2012-01-17 33 105
174 2 2012-01-18 29 134
175 2 2012-01-19 6 140
我想要这样的东西:
^{pr2}$看似有效但速度太慢的函数:
^{3}$
如果时间间隔的大小相同,可以执行以下操作:
我将数据按7天分组,累计和在
VIEWS_CUM_BEFORE
列中。在只有一列溶液或
定义cumsum解决方案列或
^{pr2}$小茴香溶液
但是
cumsum
计算第一个子组,并且需要0
值它们。在我们必须找到组的最小
DAY
,加上7天,如果这一天较短,则将其设为0。在相关问题 更多 >
编程相关推荐