如何建立一个更快的衰减平均值？将数据框的行日期字段与其他行日期进行比较

sub = pd.DataFrame({ 'user_id':[101,101,101,101,101,102,101], 'class_section':['Modern Biology - B','Spanish Novice 1 - D', 'Modern Biology - B','Spanish Novice 1 - D','Spanish Novice 1 - D','Modern Biology - B','Spanish Novice 1 - D'], 'sub_skill':['A','A','B','B','B','B','B'], 'rating' :[2.0,3.0,3.0,2.0,3.0,2.0,2.0], 'date' :['2019-10-16','2019-09-04','2019-09-04', '2019-09-04','2019-09-13','2019-10-16','2019-09-05']})

sub Out[716]: user_id class_section sub_skill rating date 0 101 Modern Biology - B A 2.0 2019-10-16 1 101 Spanish Novice 1 - D A 3.0 2019-09-04 2 101 Modern Biology - B B 3.0 2019-09-04 3 101 Spanish Novice 1 - D B 2.0 2019-09-04 4 101 Spanish Novice 1 - D B 3.0 2019-09-13 5 102 Modern Biology - B B 2.0 2019-10-16 6 101 Spanish Novice 1 - D B 2.0 2019-09-05

sub['date'] = pd.to_datetime(sub.date_due) def func(date, user_id, class_section, sub_skill): return sub.apply(lambda row: row['date'] > date and row['user_id']==user_id and row['class_section']== class_section and row['sub_skill']==sub_skill,axis=1).sum() # for some reason this next line of code took about 40 minutes to run on 9000 rows: sub['decay_count']=sub.apply(lambda row: func(row['date'],row['user_id'], row['class_section'], row['sub_skill']), axis=1) # calculate decay factor: sub['decay_weight']=sub.apply(lambda row: 0.667**row['decay_count'], axis=1) # calcuate decay average contributors (still needs to be summed): g = sub.groupby(['user_id','class_section','sub_skill']) sub['decay_avg'] = sub.decay_weight / g.decay_weight.transform("sum") * sub.rating # new dataframe with indicator/course summaries as decaying average (note the sum): indicator_summary = g.decay_avg.sum().to_frame(name = 'DAvg').reset_index()

1条回答

网友

1楼 · 发布于 2024-10-06 12:03:34

为什么不使用groupby？这里的想法是，将组中的日期按降序排列，然后减去1（因为排名从1开始）。这似乎反映了上面func中的逻辑，而不必尝试使用嵌套的apply调用apply

sub['decay_count'] = sub.groupby(['user_id', 'class_section', 'sub_skill'])['date'].rank(method='first', ascending=False) - 1

sub['decay_weight'] = sub['decay_count'].apply(lambda x: 0.667 ** x)

输出：

sub.sort_values(['user_id', 'class_section', 'sub_skill', 'decay_count'])                                      

   user_id         class_section sub_skill  rating       date  decay_count  decay_weight
0      101    Modern Biology - B         A     2.0 2019-10-16          0.0      1.000000
2      101    Modern Biology - B         B     3.0 2019-09-04          0.0      1.000000
1      101  Spanish Novice 1 - D         A     3.0 2019-09-04          0.0      1.000000
3      101  Spanish Novice 1 - D         B     2.0 2019-09-04          0.0      1.000000
6      101  Spanish Novice 1 - D         B     2.0 2019-09-05          1.0      0.667000
4      101  Spanish Novice 1 - D         B     3.0 2019-09-13          2.0      0.444889
5      102    Modern Biology - B         B     2.0 2019-10-16          0.0      1.000000

相关问题更多 >

编程相关推荐

热门问题

热门文章