正则表达式获取括号外的所有文本

网友

1楼 · 编辑于 2024-06-01 10:34:53

如果要使用regex并仍然处理嵌套括号，可以使用：

import re
expr = re.compile("(?:^|])([^[\]]+)(?:\[|$)")

print(expr.findall("myexpr[skip this[and this]]another[and skip that too]"))

这将产生['myexpr', 'another']。

其思想是匹配字符串开头或]与字符串结尾或[之间的任何内容。

网友

2楼 · 编辑于 2024-06-01 10:34:53

如果没有嵌套的括号，可以执行以下操作：

re.findall(r'(.*?)\[.*?\]', example_str)

然而，你甚至不需要一个正则表达式在这里。只需在括号中分开：

(s.split(']')[-1] for s in example_str.split('['))

你尝试失败的唯一原因是：

re.findall(r"(.*?)\[.*\]+", example_str)

…是在括号内进行非贪婪匹配，这意味着它捕获了从第一个开放括号到最后一个闭括号的所有内容，而不是只捕获第一对括号。

而且，结尾的+似乎是错误的。如果你有'abc [def][ghi] jkl[mno]'，你想回去['abc ', '', ' jkl']，还是['abc ', ' jkl']？如果是前者，则不要添加+。如果是后者，那么您需要将整个括号模式放入一个非捕获组：r'(.*?)(?:\[.*?\])+。

如果最后一个括号后面可能还有其他文本，split方法将工作正常，或者您可以使用re.split而不是re.findall…但是如果您想调整原始regex以使用它，则可以。

在英语中，你想要的是在字符串末尾的括号括起来的子字符串或之前的任何（非贪婪的）子字符串，对吧？

所以，您需要在\[.*?\]和$之间进行交替。当然，你需要对它进行分组才能写出替换，而且你不想捕获这个组。所以：

re.findall(r"(.*?)(?:\[.*?\]|$)", example_str)

网友

3楼 · 编辑于 2024-06-01 10:34:53

如果没有嵌套的括号：

([^[\]]+)(?:$|\[)

示例：

>>> import re
>>> s = 'Josie Smith [3996 COLLEGE AVENUE, SOMETOWN, MD 21003]Mugsy Dog Smith [2560 OAK ST, GLENMEADE, WI 14098]'
>>> re.findall(r'([^[\]]+)(?:$|\[)', s)
['Josie Smith ', 'Mugsy Dog Smith ']

说明：

([^[\]]+)   # match one or more characters that are not '[' or ']' and place in group 1
(?:$|\[)    # match either a '[' or at the end of the string, do not capture

相关问题更多 >

编程相关推荐

热门问题

热门文章