防止Regex中的灾难性回溯

emails = re.findall('[\w\.-]+@[\w-]+\.[\w\.-]+', lc_body) mobiles = re.findall(r"(\(?(?<!\d)\d{3}\)?-? *\d{3}-? *-?\d{4})(?!\d)|(?<!\d)(\+\d{11})(?!\d)", lc_body) abns = re.findall('[a][-\.\s]??[b][-\.\s]??[n][-\:\.\s]?[\:\.\s]?(\d+[\s\-\.]?\d+[\s\-\.]?\d+[\s\-\.]?\d+)', lc_body) licences = re.findall(r"(Licence|Lic|License|Licence)\s*(\w*)(\s*|\s*#\s*|\s*.\s*|\s*-\s*|\s*:\s+)(\d+)", lc_body, re.IGNORECASE)

1条回答

网友

1楼 · 发布于 2024-10-02 10:29:38

这个问题是由第三组引起的：(\s*|\s*#\s*|\s*.\s*|\s*-\s*|\s*:\s+)-这里所有的备选方案都以\s*开头。这会导致大量冗余回溯，因为这些替代项可以在字符串中的同一位置匹配。最佳实践是在备选方案组中使用在同一位置不匹配的备选方案。

现在，看看需要匹配的字符串，我建议使用

Lic(?:en[cs]e)?(?:\W*No:)?\W*\d+

参见regex demo

使模式更具体、更线性，尽可能多地去掉alternations，使用optional non-capturing groups和字符类。在

详细信息：

Lic(?:en[cs]e)?-Lic后跟1或0次出现（由于?量词与ence或{}的量化子模式匹配，因此(?:...)?是可选的non-capturing group（字符类[sc]匹配s或{}，比(s|c)有效得多）
(?:\W*No:)?-一个非捕获组，匹配1个或0个出现的0+非单词字符（带有\W*），后跟No:子字符串
\W*
\d+-1个或多个数字。在

相关问题更多 >

编程相关推荐

热门问题

热门文章