匹配不连续/中断字符串

2条回答

网友

1楼 · 编辑于 2024-04-27 16:08:04

有两个解决方案可以避免灾难性的回溯和允许任何数量的中断！

解决方案A

这是最干净的解决方案，但需要regex模块（win二进制文件here）。它使用原子分组，(?>...)，以避免回溯：

import regex

strExampleFile = '''United Nations & Headquarters
United <br> Nations Headquarters
United Natio<b>ns Hea</b>dquarters'''

strSearch = 'United Nations Headquarters'

strRegex = regex.sub(r'((?<!^).)',r'(?>[\s\S]*?(?=\1))\1',strSearch)
rexRegex = regex.compile(strRegex)

print([objMatch.span() for objMatch in rexRegex.finditer(strExampleFile)])

解决方案B

如果您既没有安装也不想安装regex模块，那么re可以用来模拟原子分组。但是，搜索字符串现在限制为最多100个字符：

^{pr2}$
注意：正如femtoRgon所指出的，这两种方法都会返回假阳性。在

网友
2楼 · 编辑于 2024-04-27 16:08:04

import re text = """United Nations & Headquarters United <br> Nations Headquarters United Natio<b>ns Hea</b>dquarters""" s = "United Nations Headquarters" r = re.compile(".*?".join(s)) print([v.span() for v in r.finditer(text)])
关键是".*?".join(s)，它在s的每对连续字符之间插入{}，将其转换为正则表达式。在
如果您想限制允许的中断，您可能更愿意将.*?收紧一点。在

相关问题更多 >

编程相关推荐

热门问题

热门文章