Python正则表达式单词Distan

网友

1楼 · 编辑于 2024-06-28 19:16:30

首先是假设检验。您的findHoleWorld（）函数返回的是方法而不是模式，所以我猜它应该这样调用：

>>> match_result = (findWholeWord("boy"))("Oh boy how complicated!")
>>> match_result.group(0)
'boy'

通常我们会返回一个模式，在这个模式上我们可以应用不同的搜索方法。你所做的是有效的，但却把你锁在一个方法上。在

现在让我们来讨论\b（和同伴\b）。\b运算符与您发现的单词边界相匹配。但关键是“概念”。答案是非常狭窄的集合[A-Za-z0-9_9]“单词”不是一个自然语言单词，而是一个计算机语言标识符。\b运算符的存在更多的是为了语言本身的解析器，而不是供您使用。在

这意味着它不能处理常见的英语情况，例如：

^{pr2}$

没有一个简单的答案适用于所有的英语，无论你想出什么样的模式，都会有例外。你需要弄清楚你要解决的问题有哪些局限性。在

回到你最初的问题，一个近似的解决方案：

def findSeparatedWords(w1, w2, distance):
    return re.compile(r'(\b{0}\b)(\b[^\b]+\b){2}(\b{1}\b)'.format(w1, w2, "{" + str(distance) + '}'), flags=re.IGNORECASE).search

>>> match_result = (findSeparatedWords("Hello", "simple", 3))("Hello, World! is a simple computer program.")
>>> match_result
<_sre.SRE_Match object; span=(0, 25), match='Hello, World! is a simple'>
>>>
>>> match_result = (findSeparatedWords("Hello", "simple", 10))("Hello, World! is a simple computer program.")
>>> match_result
>>>

网友

2楼 · 编辑于 2024-06-28 19:16:30

您可以在regex中的这两者之间添加(?:\W+\w+){0,10}\W+子模式：

\bhello(?:\W+\w+){0,10}\W+simple\b

见regex demo

正则表达式解释：

\bhello-一个完整的单词hello
(?:\W+\w+){0,10}-0到10个序列，由一个或多个非单词字符后跟一个或多个单词字符（\w匹配[a-zA-Z0-9_]或所有Unicode字母和数字，如果提供了re.U标志），然后是。。。在
\W+-一个或多个非单词字符（标点符号、空格等）
simple\b-一个完整的单词simple

所以，你的代码看起来像

^{pr2}$

见Python demo

如果单词的位置可以是任意的，则需要添加一个替代词：

\bhello(?:\W+\w+){0,10}\W+simple\b|\bsimple(?:\W+\w+){0,10}\W+hello\b

Another demo

代码：

def findWholeWord(w1,w2):
    return re.compile(r'\b{0}(?:\W+\w+){{0,10}}\W+{1}\b|\b{1}(?:\W+\w+){{0,10}}\W+{0}\b'.format(w1,w2), flags=re.IGNORECASE).search

网友

3楼 · 编辑于 2024-06-28 19:16:30

请尝试以下正则表达式：

r'\bHello\s+(\S+\s+){0,10}simple\b'

示例：https://regex101.com/r/oL7tN8/4

相关问题更多 >

编程相关推荐

热门问题

热门文章