提高pandas中嵌套应用程序的性能

# names - ca. 250k rows name 0 MISS ELFRIEDA ALPERT 1 DALE VON PETTY 2 MOHAMMAD IBN MASILLAH 3 YELENA THE MORRIS 4 MR. SHENNA DEMOSS ... # illegal_words - ca. 2k rows 0 MISS 1 VON 2 THE ...

1条回答

网友

1楼 · 发布于 2024-10-01 17:30:12

你能试试吗

illegal_words = ['MISS', 'VON', 'THE']

out = df['name'].str.replace(fr"({'|'.join(illegal_words)}) ", '', regex=True)

>>> out
0          ELFRIEDA ALPERT
1               DALE PETTY
2    MOHAMMAD IBN MASILLAH
3            YELENA MORRIS
4        MR. SHENNA DEMOSS
Name: name, dtype: object

性能

对于2500个单词和250000条记录的随机列表：

%timeit df['name'].str.replace(fr"({'|'.join(illegal_words)}) ", '', regex=True)
130 ms ± 870 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)

编程相关推荐

java将两个不同类型的列表组合在一起
java用户管理最佳实践/库/框架？
maven从另一个捆绑包重写捆绑包中的java类
java如何使用tuio调用按钮的侦听器？
java为什么我的分数变量不能在GameScreen类之外评估？
linux自动安装需要在Bash中多次按键的Java应用程序
java Firebase一直在服务器配置中抛出OAuth2客户端id未找到
java根据字节数组的有效长度对其进行非序列化
Java检查字符串之间的空格
java如何在多个类上应用Bindy数据转换/在工厂类上应用Bindy

相关问题更多 >

编程相关推荐

热门问题

热门文章

提高pandas中嵌套应用程序的性能

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >