我有一个pandas dataframe,它包含以下整数值列:
user_id, user_agent_id, appearances
行数各不相同,但超过40万行。我想创建一个新行totalappearances,它是每个用户的所有外观的总和。所以我要做的是:
^{pr2}$我需要它,因为我想计算每个用户的用户代理id的百分比
^{3}$我做同样的事情来计算百分比的最大值
dataframe['max_percent'] = dataframe['percent'].groupby(dataframe['user_id']).transform('max')
等等
问题是,虽然变换方法中的max方法需要大约5m,但sum方法需要更长的时间,即2sec。这是自然的吗?有没有更快的方法来获取total_appearances
的信息?在
如果我理解正确的话,你可以用这样的方法将前两行合并成一个步骤:
你看到这些变化带来的性能改善了吗?在
相关问题 更多 >
编程相关推荐