pd.Series.str.contains的矢量化版本

2条回答

网友

1楼 · 编辑于 2024-09-29 23:17:58

我认为您的解决方案是好的，因为pandas.str函数也使用循环（并处理缺少的值），所以有时会比较慢

我对解决方案进行了一些小的修改-将元组解包为变量t和v，在测试数据中，解包速度更快一些：

np.random.seed(2020)

N = 10000
s1 = pd.Series(np.random.choice(list(string.ascii_letters), size=N))
s2 = pd.DataFrame(np.random.choice(list(string.ascii_letters), size=(N, 3))).sum(axis=1)

In [82]: %timeit (pd.Series([t[0] in t[1] for t in zip(s1, s2)], index=s1.index))
3.47 ms ± 271 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [83]: %timeit (pd.Series([t in v for t, v in zip(s1, s2)], index=s1.index))
2.89 ms ± 130 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

网友

2楼 · 编辑于 2024-09-29 23:17:58

此外：

import numpy as np
import pandas as pd
import string

np.random.seed(2020)

N = 10000
s1 = pd.Series(np.random.choice(list(string.ascii_letters), size=N))
s2 = pd.DataFrame(np.random.choice(list(string.ascii_letters), size=(N, 3))).sum(axis=1)

%%timeit
s1.apply(lambda x: x[0] in s2.loc[x.name, 0], axis=1)

218 ms ± 8.61 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

也许不是最好的方法：）

相关问题更多 >

编程相关推荐

热门问题

热门文章

pd.Series.str.contains的矢量化版本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >