如何检查dataframe列中的子字符串是否存在于同一dataframe中另一列的子字符串中？

1条回答

网友

1楼 · 发布于 2024-10-03 00:16:33

要让一点走得更远，请执行以下操作：

为每个列创建一个新系列，并将正则表达式模式\W+传递给str.replace()
使用str.lower()
创建替换列表以将drive规范化为dr，avenue规范化为ave等

s1 = df['A'].str.replace('\W+', '').str.lower()
s2 = df['B'].str.replace('\W+', '').str.lower()
lst = [*df[s1==s2]['A']]
lst
Out[1]: ['- 5923FoxRd', 'Saratoga Street, Suite 200']

这就是s1和s2的样子：

print(s1,s2)

0                 5923foxrd
1            631newhavenave
2    saratogastreetsuite200
Name: A, dtype: object

0                 5923foxrd
1                   modesto
2    saratogastreetsuite200
Name: B, dtype: object

在此基础上，您可能希望创建一些替换值，以便进一步规范化数据，如：

to_replace = ['drive', 'avenue', 'street']
replaced = ['dr', 'ave', 'str']

to_replace = ['drive', 'avenue', 'street']
replaced = ['dr', 'ave', 'str']
s1 = df['A'].str.replace('\W+', '').str.lower().replace(to_replace, replaced, regex=True)
s2 = df['B'].str.replace('\W+', '').str.lower().replace(to_replace, replaced, regex=True)
lst = [*df[s1==s2]['A']]
lst
print(s1,s2)
0              5923foxrd
1         631newhavenave
2    saratogastrsuite200
Name: A, dtype: object

0              5923foxrd
1                modesto
2    saratogastrsuite200
Name: B, dtype: object

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何检查dataframe列中的子字符串是否存在于同一dataframe中另一列的子字符串中？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >