用正则表达式在Python中保留上下文的同时解析部分句子

AAAA111, BBB111, CCC101, and DDD104 AAAA111, BBB111, CCC101 or DDD104 AAAA111, AAAA112 or AAAA113, BBB333 AAA111 or BBB111, AND CCC111 AAA111 or BBB111 or CCC111 or DDD111 AAA111 or 112 or 222 or 333 AAA111 or instructor permission AAA111/221 and so on... :(

1条回答

网友

1楼 · 发布于 2024-10-01 00:23:25

您可以尝试使用^{}，这是一个非常适合处理语法的库。你知道吗

如果条目具有一致的（布尔）逻辑，并且您知道如何解释and和or之间的逗号，那么您可以尝试使用基于pyparsing中^{}示例的脚本来解析条目：

import pprint
import string

from pyparsing import Word, nums, Literal, opAssoc, operatorPrecedence


course_name = Word(string.ascii_uppercase + nums + "/") | Literal("instructor permission")
comma_separator = Literal(',')
comma_separator.setParseAction(lambda t:"&&")

and_separator = Literal(', and') | Literal(', AND') | Literal('and')  | Literal('AND')
and_separator.setParseAction(lambda t:"&&")

or_separator = Literal('or') | Literal("OR")
or_separator.setParseAction(lambda t:"||")

course_line = operatorPrecedence(course_name,
                            [
                                (and_separator, 2, opAssoc.LEFT,),
                                (or_separator, 2, opAssoc.LEFT),
                                (comma_separator, 2, opAssoc.LEFT,),
                            ])

data = """AAAA111, BBB111, CCC101, and DDD104
AAAA111, BBB111, CCC101 or DDD104
AAAA111, AAAA112 or AAAA113, BBB333
AAA111 or BBB111, AND CCC111
AAA111 or BBB111 or CCC111 or DDD111
AAA111 or 112 or 222 or 333
AAA111 or instructor permission
AAA111/221
"""

for line in data.splitlines():
    results = course_line.parseString(line)
    print(line)
    pprint.pprint(results.asList()[0])
    print()

打印：

AAAA111, BBB111, CCC101, and DDD104
['AAAA111', '&&', 'BBB111', '&&', ['CCC101', '&&', 'DDD104']]

AAAA111, BBB111, CCC101 or DDD104
['AAAA111', '&&', 'BBB111', '&&', ['CCC101', '||', 'DDD104']]

AAAA111, AAAA112 or AAAA113, BBB333
['AAAA111', '&&', ['AAAA112', '||', 'AAAA113'], '&&', 'BBB333']

AAA111 or BBB111, AND CCC111
['AAA111', '||', ['BBB111', '&&', 'CCC111']]

AAA111 or BBB111 or CCC111 or DDD111
['AAA111', '||', 'BBB111', '||', 'CCC111', '||', 'DDD111']

AAA111 or 112 or 222 or 333
['AAA111', '||', '112', '||', '222', '||', '333']

AAA111 or instructor permission
['AAA111', '||', 'instructor permission']

AAA111/221
'AAA111/221'

相关问题更多 >

编程相关推荐

热门问题

热门文章

用正则表达式在Python中保留上下文的同时解析部分句子

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >