提高非常慢的python代码的执行时间

网友

1楼 · 编辑于 2024-09-27 07:25:06

同意apply()可以很慢。您希望尽可能利用矢量化操作。尝试使用连接运算符（+）。这能更快吗

pd_df.loc[flag, 'COL_{}'.format(col_number)] = pd_df.loc[flag,'COL{}'.format(col_number)] + (str(userid) + "@")

此外，不确定这是否有帮助，但其中一些字符串应该预先计算（可能Python已经在缓存它们，但万一没有）：

col_name = 'COL_{}'.format(col_number)
suffix = str(userid) + "@"
pd_df.loc[flag, col_name] = pd_df.loc[flag, col_name] + suffix

网友

2楼 · 编辑于 2024-09-27 07:25:06

有两点：

f-strings始终比str.format快，请尽可能使用它们：

In [3]: fmt = "{foo}"
In [4]: %timeit fmt.format(foo=5)
299 ns ± 21.7 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [5]: foo = 5
In [6]: %timeit f"{foo}"
79.2 ns ± 2.31 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)

似乎userid独立于数据帧，我不确定为什么要使用apply，只需使用broadcasting：

In [8]: userid = "abcdef"
In [9]: pd.Series('abc def ghi jkl'.split()) + f'@{userid}'
Out[9]:
0    abc@abcdef
1    def@abcdef
2    ghi@abcdef
3    jkl@abcdef
dtype: object

所以最后的方法可能是这样的：

for num in range(5):
    flag = ... # calculate flag
    df[flag, f"col_{num}"] = df[flag, f"col_{num}"] + f"@{userid}"

网友

3楼 · 编辑于 2024-09-27 07:25:06

apply是对每个项运行函数的较慢方式之一

pd_df.loc[flag, f’COL_{col_number}’] = pd_df.loc[flag, f’COL_{col_number}’].map(lambda x: f’{x}{userid}@‘)

相关问题更多 >

编程相关推荐

热门问题

热门文章

提高非常慢的python代码的执行时间

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >