用于捕获分隔符内文本的Python解析器组合器

from typing import Pattern, TypeVar import re # A Generic type declaration. T = TypeVar("T") def first(text: str, pattern: str, default: T, flags=0) -> T: """ Given a `text`, a regex `pattern` and a `default` value, return the first match in `text`. Otherwise return a `default` value if no match is found. """ match = re.findall(pattern, text, flags=flags) return match[0] if len(match) > 0 else default def section(text: str, begin: str, end: str) -> str: """ Given a `text` and two `start` and `stop` regexes, return the captured group found in the interval. Otherwise, return an empty string if no match is found. """ return first(text, fr"{begin}([\s\S]*?)(?={end})", default="")

# A Simpler example with hardcoded stuff from parsy import regex, seq, string text = ''' AAAAAAAAAA AAAAAAAA AAAAAAAAAAAAAA BBBBBBB START THE TEXT HERE SHOULD BE CAPTURED STOP CCCCCCCCCC CCCCCC ''' start = regex(r"STARTS?") middle = regex(r"[\s\S]*").optional() stop = regex(r"STOPS?") eol = string("\n") # Work fine start.parse("START") middle.parse("") stop.parse("STOP") section = seq( start, middle, stop ) # Simpler case, breaks section.parse("START AAA STOP")

--------------------------------------------------------------------------- ParseError Traceback (most recent call last) <ipython-input-260-fdec112e1648> in <module> 24 ) 25 # Simpler case, breaks ---> 26 section.parse("START AAA STOP") ~/.venv/lib/python3.8/site-packages/parsy/__init__.py in parse(self, stream) 88 def parse(self, stream): 89 """Parse a string or list of tokens and return the result or raise a ParseError.""" ---> 90 (result, _) = (self << eof).parse_partial(stream) 91 return result 92 ~/.venv/lib/python3.8/site-packages/parsy/__init__.py in parse_partial(self, stream) 102 return (result.value, stream[result.index:]) 103 else: --> 104 raise ParseError(result.expected, stream, result.furthest) 105 106 def bind(self, bind_fn): ParseError: expected 'STOPS?' at 0:14

2条回答

网友

1楼 · 编辑于 2024-05-29 10:48:40

你试过使用split吗

根据我对你们项目要求的理解。我会这样做：

text = '''
AAAAAAAAAA AAAAAAAA AAAAAAAAAAAAAA
BBBBBBB START THE TEXT HERE SHOULD
BE CAPTURED STOP CCCCCCCCCC CCCCCC
'''
# split text at START and take the second part of the text
# Then split the result by STOP and take the first part of the text
s = text.split('START')[1].split('STOP')[0]
print (s)

网友

2楼 · 编辑于 2024-05-29 10:48:40

问题是middle解析器匹配文本直到结束，因此stop解析器不需要使用任何内容：

seq(start, middle).parse("START AAA STOP")

印刷品

['START', ' AAA STOP']

避免此行为的一个解决方案是对middle正则表达式使用lookahead选项：

middle = regex(r"[\s\S]*(?=STOP)").optional()

这确保匹配的文本后面跟着“停止”字

或者，您可以使用Parsy的^{}方法：

middle = (regex(r"STOPS?").should_fail("not STOP") >> any_char).many().concat()

相关问题更多 >

编程相关推荐

热门问题

热门文章