在字符串开头，正则表达式没有匹配

import re pattern = """(?= # inside lookahead for overlapping results (?:a|^) # match at beginning of str or after a (b* (?:a) b*) # one a between any number of bs (?:a|$)) # at end of str or before next a """ a_between_bs = re.compile(pattern, re.VERBOSE)

pattern = """(?= (?:^|a) # a and ^ swapped (b* (?:a) b*) (?:a|$)) """ a_between_bs = re.compile(pattern, re.VERBOSE) a_between_bs.findall("abbabb") # ['abb']

vowels = 'æɑəɛiɪɔuʊʌ' diphtongues = "|".join(('aj', 'aw', 'ej', 'oj', 'ow')) consonants = 'θwlmvhpɡŋszbkʃɹdnʒjtðf' pattern = f"""(?= (?:[{vowels}]|^|{diphtongues}) ([{consonants}]* (?:[{vowels}]|{diphtongues}) [{consonants}]*) (?:[{vowels}]|$|{diphtongues}) ) """ syllables = re.compile(pattern, re.VERBOSE)

2条回答

网友
1楼 · 编辑于 2024-07-01 07:56:15

我建议用双重否定来解决这个问题：
(?= # inside lookahead for overlapping results (?<![^a]) # match at beginning of str or after a (b*ab*) # one a between any number of bs (?![^a]) # at end of str or before next a )
参见regex demo
注意我用lookarounds替换了分组结构：(?:a|^)替换为(?<![^a])，(?:a|$)替换为(?![^a])。后者并不重要，但第一个在这里非常重要。你知道吗
外部lookahead模式开头的(?:a|^)与字符串的a或开头匹配，无论哪个先到。如果a在开始处，那么它是匹配的，当输入是abbabb时，您会得到bbabb，因为它匹配捕获组模式，并且后面有一个字符串结束位置。下一次迭代在第一个a之后开始，并且找不到任何匹配项，因为字符串中只剩下的a在b之后没有a
注意order of alternative matters。如果更改为(?:^|a)，则匹配从字符串的开头开始，b*匹配空字符串，ab*获取abbabb中的第一个abb，并且由于紧随其后的是a，因此将abb作为匹配。无法匹配第一个a之后的任何内容。你知道吗

网友
2楼 · 编辑于 2024-07-01 07:56:15

记住python“短路”，所以，如果它匹配“^”，就不会继续查看它是否也匹配“a”。这将“消耗”匹配字符，因此在匹配“a”的情况下，“a”将被消耗并且不可用于下一个要匹配的组，并且因为使用（？）？：）语法是非捕获的，即“a”是“丢失的”，并且不能被下一个分组捕获（b*（？：a）b*），而当第一个分组使用“^”时，第一个“a”将在第二个分组中匹配。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章