用一个正则表达式匹配多个重叠的ngram

doc = 'aap noot mies' aNgrams = ['aap','noot','aap noot'] sNgrams = 'aap|noot|aap\\s+noot' re.findall(reNgram,doc) [('', 'aap'), (' ', 'noot')] aNgrams = ['mies','aap noot'] re.findall(reNgram,doc) [('', 'aap noot'), (' ', 'mies')]

1条回答

网友

1楼 · 发布于 2024-06-17 04:44:56

我认为你用一个正则表达式是做不到的。在

你可以靠得更近一点

使用lookahead断言至少找到那些不在同一位置开始的重叠匹配
按长度递减排序n-gram，以确保先找到较大的匹配项

现在，可以找到实际的重叠匹配（noot在app noot之后开始）：

>>> sNgrams = '|'.join(('\s+'.join(re.escape(gram) 
...                    for gram in nGram.split())) 
...                    for nGram in reversed(sorted(aNgrams, key=len)))
>>> sNgrams
'aap\\s+noot|noot|aap'
>>> reNgrams = re.compile(r"(?<!\w)(?=(" + sNgrams + r")(?!\w))",
...                         flags=re.UNICODE|re.IGNORECASE)
>>> reNgrams.findall(doc)
['aap noot', 'noot']

但是它仍然不能同时找到aap和{}。正则表达式只能报告字符串中每个位置的一个匹配项，因此它必须匹配两个位置中的一个。在

为了解决这个问题，您必须将n-gram列表拆分为多个列表，其中没有任何字符串以相同的单词开头，然后按顺序应用这些正则表达式。我怀疑这不会很有效，但我看不到任何其他方法（除了在自己的正则表达式中检查每个单词之外，这也不会很快）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章