我正在尝试替换for循环,以便在pandas中获得更高的性能。在熊猫中使用for循环是性能杀手,请在许多博客中阅读。现在,我必须对项集应用一些逻辑,并按emp_id
分组。下面是代码块。目前,以下代码有效,但投诉与性能有关。我不能删除groupby
当然,有没有其他技术可以用来提高性能
emp_groups = self.df.groupby("emp_id")
for key, item in emp_groups:
for _ridx in range(0, len(self.rules), 2):
# logic on item
_ridx
-是一组应用于列组的规则
分组对象中的
item
只是一个DataFrame
,因此,如果可能,您可以对逻辑进行矢量化,并与agg
函数结合以加快速度—例如相关问题 更多 >
编程相关推荐