在模式之间替换字符

网友

1楼 · 编辑于 2024-09-26 18:02:26

如果您的字段标识符始终为“fieldX”，您也可以使用它进行拆分：

>>> s.split('\n\nfield')
['field1: content asd..', '2: content\n\nqwe...', '3: content asfdqegt']

网友

2楼 · 编辑于 2024-09-26 18:02:26

你可以用

import re
s = "field1: content asd..\n\nfield2: content\n\nqwe...\n\nfield3: content asfdqegt"
output = [x.replace('\n', '') for x in re.split(r"\n\n(?=\w+:)", s)]
print(output)
# => ['field1: content asd..', 'field2: contentqwe...', 'field3: content asfdqegt']

见online demo。另见regex demo

\n\n(?=\w+:)模式匹配两个LF字符，紧接着是一个或多个单词字符，然后是一个:字符。使用此模式拆分字符串后，将使用.replace('\n', '')从每个块中删除任何LF char

网友

3楼 · 编辑于 2024-09-26 18:02:26

您可以在字段之间进行匹配，并替换匹配中的换行符

^field\d+:.*(?:\n(?!field\d+:).*)*

^字符串的开头
field\d+:.*匹配字段后跟1+位数，:和行的其余部分
(?:非捕获组作为一个整体重复
- \n匹配换行符
- (?!field\d+:)断言字符串不以字段模式开头
- .*如果断言为true，则匹配整行
)*关闭该组并可选地重复

例如

import re

s = "field1: content asd..\n\nfield2: content\n\nqwe...\n\nfield3: content asfdqegt"
pattern = r"^field\d+:.*(?:\n(?!field\d+:).*)*"
res = [x.replace('\n', '') for x in re.findall(pattern, s, re.MULTILINE)]
print (res)

输出

['field1: content asd..', 'field2: contentqwe...', 'field3: content asfdqegt']

见regex demo和Python demo

相关问题更多 >

编程相关推荐

热门问题

热门文章

在模式之间替换字符

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >