搜索列中的字符串列表

itemid desc matches 0 101 tea leaves [Tea] 1 201 baseball gloves [Baseball] 2 221 teas leaves from Onus Green Tea Co. [Tea, Onus]

3条回答

网友

1楼 · 编辑于 2024-06-26 09:52:10

尝试将contains与regex交替使用：

strings = ['Tea','Baseball','Onus']
rgx = '\\b(?:' + '|'.join(strings) + ')\\b'
df[df.desc.str.contains(rgx, regex=True, na=False)]

网友

2楼 · 编辑于 2024-06-26 09:52:10

我们可以将Series.str.findall与regex ignore case标志（?i）一起使用，这样就不必使用import re

df['Matches'] = df['desc'].str.findall(f'(?i)({"|".join(strings)})')

   itemid                                desc           Matches
0     101                          tea leaves             [tea]
1     201                     baseball gloves        [baseball]
2     221  tea leaves from Onus Green Tea Co.  [tea, Onus, Tea]

要删除重复项，我们将字符串转换为大写，并生成set：

df['Matches'] = (
    df['desc'].str.findall(f'(?i)({"|".join(strings)})')
    .apply(lambda x: list(set(map(str.upper, x))))
)

   itemid                                desc      Matches
0     101                          tea leaves        [TEA]
1     201                     baseball gloves   [BASEBALL]
2     221  tea leaves from Onus Green Tea Co.  [TEA, ONUS]

编辑部分匹配

我们可以使用单词边界\b：

strings = ['\\b' + f + '\\b' for f in strings]

df['Matches'] = df['desc'].str.findall(f'(?i)({"|".join(strings)})')

   itemid                                 desc      Matches
0     101                           tea leaves        [tea]
1     201                      baseball gloves   [baseball]
2     221  teas leaves from Onus Green Tea Co.  [Onus, Tea]

网友

3楼 · 编辑于 2024-06-26 09:52:10

您不需要吐出desc列。你知道吗

import re
strings = ['Tea','Baseball','Onus']     
df = pd.DataFrame({"desc": ['tea leaves', 'baseball gloves', 'tea leaves from Onus Green Tea Co.']})
df['matches'] = df['desc'].str.findall('|'.join(strings),flags=re.IGNORECASE)
print(df['matches'])

输出：

0               [tea]
1          [baseball]
2    [tea, Onus, Tea]
Name: matches, dtype: object

编辑部分匹配

相关问题更多 >

编程相关推荐

热门问题

热门文章

搜索列中的字符串列表

编辑部分匹配

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >