仅在第一次使用多个分隔符使用正则表达式分隔

3条回答

网友

1楼 · 编辑于 2024-06-14 10:46:52

您可以使用一个小类来计算替换：

import re

text = "lorem ipsum, dolor sit - amet, consectetur : adipiscing elit. Praesent vitae orc"
# text = "abc: def: ijk, lmno: pqr - stu, wx"
rx = re.compile(r'[-,:]')


class Replacer:
    def __init__(self, *args, **kwargs):
        for key in args:
            setattr(self, key, 0)
        self.needle = kwargs.get("needle")

    def __call__(self, match):
        key = match.group(0)
        setattr(self, key, getattr(self, key, 0) + 1)
        cnt = getattr(self, key, 0)
        return self.needle if cnt == 1 else key


rpl = Replacer("-", ",", ":", needle="#@#")

result = [item.strip() for item in re.split("#@#", rx.sub(rpl, text))]
print(result)

产生

['lorem ipsum', 'dolor sit', 'amet, consectetur', 'adipiscing elit. Praesent vitae orc']

网友

2楼 · 编辑于 2024-06-14 10:46:52

如果所有分隔符必须至少出现一次，则可以使用4个捕获组，并使用3个选项中的1个（已匹配的选项除外）进行反向引用，而不是使用拆分

^(.*?)(, | - |: )(.*?)(?!\2)(, | - |: )(.*?)(?!\2|\4)(, | - |: )(.*)

图案会匹配的

^字符串的开头
(.*?)组1，尽可能少地匹配
(, | - |: )组2，匹配列出的任何
(.*?)组3，尽可能匹配
(?!\2)负前瞻，断言右侧的内容与组2中的内容不匹配（从两个有效选项中选择一个）
(, | - |: )组4，匹配列出的任何
(.*?)组5，尽可能匹配
(?!\2|\4)负前瞻，断言右侧的内容不是组2或组4中匹配的内容（选择左侧唯一有效的选项）
(, | - |: )组6，匹配列出的任何
(.*)组7，尽可能匹配任何字符

Regex demo

比如说

import re

regex = r"^(.*?)(, | - |: )(.*?)(?!\2)(, | - |: )(.*?)(?!\2|\4)(, | - |: )(.*)"

test_str = ("lorem ipsum, dolor sit - amet , consectetur : adipiscing elit. Praesent vitae orc\n\n"
    "abc: def: ijk, lmno: pqr - stu, wx\n\n")

matches = re.search(regex, test_str, re.MULTILINE)

if matches:
    print(matches.group(1))
    print(matches.group(3))
    print(matches.group(5))
    print(matches.group(7))

输出

lorem ipsum
dolor sit
amet , consectetur 
adipiscing elit. Praesent vitae orc

参见Python demo1和demo2

网友

3楼 · 编辑于 2024-06-14 10:46:52

值得思考的是，不确定这是否是一个有价值的答案，但可能您可以使用regex而不是re模块来利用具有非固定宽度的负向查找功能。例如：

\s*([,:-])(?<!\1.*\1)\s*

在Python中：

import regex as re
string1 = "abc: def: ijk, lmno: pqr - stu, wx"
lst1 = re.sub(r'\s*([,:-])(?<!\1.*\1)\s*', '|' , string1).split('|')
print(lst1)

结果:

['abc', 'def: ijk', 'lmno: pqr', 'stu, wx']

相关问题更多 >

编程相关推荐

热门问题

热门文章

仅在第一次使用多个分隔符使用正则表达式分隔

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >