用于在python中检索文本范围的Regex

test = "11.3.2 Debe llevarse a cabo mediante equipos o sistemas de seguridad que eviten la explosión por golpe, chispa o calentamiento. 12. Requisitos de seguridad e higiene para el transporte y almacenamiento de sustancias corrosivas, irritantes o tóxicas 12.1 El almacenamiento de sustancias corrosivas, irritantes o tóxicas debe hacerse en recipientes específicos, de materiales compatibles con la sustancia de que se trate. 12.2 Cuando el transporte de sustancias corrosivas, irritantes o tóxicas en los centros de trabajo se realice a través de un sistema de tuberías o recipientes portátiles, éstos deben estar cerrados para evitar que su contenido se derrame o fugue."

3条回答

网友

1楼 · 编辑于 2024-09-27 19:21:55

我建议按标准的数目分开，然后按2乘2的顺序连接

x = re.split(r"(?:\A\s*|\.\s+)(\d+(?:(?:[.]\d+)+|[.]))", test_str)[1:]
list = [i+j for i,j in zip(x[::2], x[1::2])]
print(list)

参见演示here

网友

2楼 · 编辑于 2024-09-27 19:21:55

您可以执行以下操作：

import re

test = """11.3.2 Debe llevarse a cabo mediante equipos o sistemas de seguridad que eviten 
la explosión por golpe, chispa o calentamiento. 12. Requisitos de seguridad e 
higiene para el transporte y almacenamiento de sustancias corrosivas, irritantes 
o tóxicas 12.1 El almacenamiento de sustancias corrosivas, irritantes o tóxicas debe 
hacerse en recipientes específicos, de materiales compatibles con la sustancia de 
que se trate. 12.2 Cuando el transporte de sustancias corrosivas, irritantes o 
tóxicas en los centros de trabajo se realice a través de un sistema de tuberías o 
recipientes portátiles, éstos deben estar cerrados para evitar que su contenido se 
derrame o fugue."""

pattern = re.compile('\d{1,2}(\.\d{1,2})*([^\d]+)')


for match in pattern.finditer(test):
    print(match.group())
    print('     -')

输出

11.3.2 Debe llevarse a cabo mediante equipos o sistemas de seguridad que eviten 
la explosión por golpe, chispa o calentamiento. 
     -
12. Requisitos de seguridad e 
higiene para el transporte y almacenamiento de sustancias corrosivas, irritantes 
o tóxicas 
     -
12.1 El almacenamiento de sustancias corrosivas, irritantes o tóxicas debe 
hacerse en recipientes específicos, de materiales compatibles con la sustancia de 
que se trate. 
     -
12.2 Cuando el transporte de sustancias corrosivas, irritantes o 
tóxicas en los centros de trabajo se realice a través de un sistema de tuberías o 
recipientes portátiles, éstos deben estar cerrados para evitar que su contenido se 
derrame o fugue.
     -

模式\d{1,2}(\.\d{1,2})*([^\d]+)将匹配头（编号），后跟不是数字的所有内容。作为一种替代方法，您可以使用以下内容，并进行展望：

pattern = re.compile('\d{1,2}(\.\d{1,2})*(.+?)(?=(\d{1,2}(\.\d{1,2})*|$))', re.DOTALL)


for match in pattern.finditer(test):
    print(match.group())
    print('     -')

输出

11.3.2 Debe llevarse a cabo mediante equipos o sistemas de seguridad que eviten 
la explosión por golpe, chispa o calentamiento. 
     -
12. Requisitos de seguridad e 
higiene para el transporte y almacenamiento de sustancias corrosivas, irritantes 
o tóxicas 
     -
12.1 El almacenamiento de sustancias corrosivas, irritantes o tóxicas debe 
hacerse en recipientes específicos, de materiales compatibles con la sustancia de 
que se trate. 
     -
12.2 Cuando el transporte de sustancias corrosivas, irritantes o 
tóxicas en los centros de trabajo se realice a través de un sistema de tuberías o 
recipientes portátiles, éstos deben estar cerrados para evitar que su contenido se 
derrame o fugue.
     -

这样做的目的是匹配后跟标题或文本结尾的所有内容。注意标志re.DOTALL的使用。你知道吗

网友

3楼 · 编辑于 2024-09-27 19:21:55

findall的另一个解决方案：

re.findall(r"(?s)(?:\d+\.\s|(?:\d+\.)+\d+\s)(?:(?!\d+\.).)+",txt)

Out: 
['11.3.2 Debe llevarse a cabo mediante equipos o sistemas de seguridad que eviten \nla explosión por golpe, chispa o calentamiento.',
 '12. Requisitos de seguridad e \nhigiene para el transporte y almacenamiento de sustancias corrosivas, irritantes \no tóxicas',
 '12.1 El almacenamiento de sustancias corrosivas, irritantes o tóxicas debe \nhacerse en recipientes específicos, de materiales compatibles con la sustancia de \nque se trate.',
 '12.2 Cuando el transporte de sustancias corrosivas, irritantes o \ntóxicas en los centros de trabajo se realice a través de un sistema de tuberías o \nrecipientes portátiles, éstos deben estar cerrados para evitar que su contenido se \nderrame o fugue.']

"""
(?s) '.' matches \n, too

(?:\d+\.\s|(?:\d+\.)+\d+\s)  the exact numbering pattern

(?:(?!\d+\.).)+  matches any character which not a start of a numbering

Edit:
(?:.(?!\d+\.))+  changed to (?:(?!\d+\.).)+
The previous pattern cuts the last char (in our case the space) before the numbering.
"""

相关问题更多 >

编程相关推荐

热门问题

热门文章