从pandas数据帧列（python3）中提取所有模式

import pandas as pd import re rgx_words1 = ['algaecid','algaecide','algaecides','anti-bakterien'] pattern = "\\b("+'|'.join(rgx_words1)+")\\b" re_patt = re.compile(pattern) pattern2 = "("+'|'.join(rgx_words1)+")" re_patt2 = re.compile(pattern2) data = [[1, 'I, will, find, algaecide, dd, algaecid, algaecides'], [2, 'fff, algaecid, dd, algaecide'], [3, 'ssssalgaecidllll, algaecides']] # Create the pandas DataFrame mydf = pd.DataFrame(data, columns = ['id', 'text']) mydf['matches'] = mydf.apply(lambda x : re.findall(re_patt,x['text']),axis=1) mydf['matches2'] = mydf.apply(lambda x : re.findall(re_patt2,x['text']),axis=1)

1条回答

网友

1楼 · 发布于 2024-10-03 00:28:44

您可以将pattern2更改为可选地匹配非空白字符，但左侧和右侧的逗号[^\s,]*除外

pattern2 = "[^\s,]*(?:"+'|'.join(rgx_words1)+")[^\s,]*"

代码可能看起来像

import pandas as pd
import re

rgx_words1 = ['algaecid','algaecide','algaecides','anti-bakterien']

pattern = "\\b("+'|'.join(rgx_words1)+")\\b"
re_patt = re.compile(pattern)

pattern2 = "[^\s,]*(?:"+'|'.join(rgx_words1)+")[^\s,]*"
re_patt2 = re.compile(pattern2)

data = [[1, 'I, will, find, algaecide, dd, algaecid, algaecides'], [2, 'fff, algaecid, dd, algaecide'], [3, 'ssssalgaecidllll, algaecides']]
mydf = pd.DataFrame(data, columns = ['id', 'text'])

mydf['matches'] = mydf.apply(lambda x : re.findall(re_patt, x['text']), axis=1)
mydf['matches2'] = mydf.apply(lambda x : re.findall(re_patt2, x['text']), axis=1)

print(mydf)

输出

   id                                               text                            matches                           matches2
0   1  I, will, find, algaecide, dd, algaecid, algaec...  [algaecide, algaecid, algaecides]  [algaecide, algaecid, algaecides]
1   2                       fff, algaecid, dd, algaecide              [algaecid, algaecide]              [algaecid, algaecide]
2   3                       ssssalgaecidllll, algaecides                       [algaecides]     [ssssalgaecidllll, algaecides]

相关问题更多 >

编程相关推荐

热门问题

热门文章