我有一个文本文件,从中我提取了这两个段落块。下面给出了文本示例:
文本示例:
NOMEAR ISABELLE FERREIRA ZARONI, ID FUNCIONAL Nº 5100796-7, para exercer, com validade a contar de 16 de novembro de 2020, o cargo em comissão de Assessor, símbolo DAS-7, da Sub- secretaria de Concessões e Parcerias, da Secretaria de Estado de Planejamento e Gestão, anteriormente ocupado por Vinicius dos San- tos Silva, ID Funcional n° 5108029-0. Processo nº SEI- 1 2 0 0 0 1 / 0 1 4 6 11 / 2 0 2 0 .
NOMEAR KARINE MATOS DIAS, ID FUNCIONAL Nº 5092869-4 para exercer, com validade a contar de 16 de novembro de 2020, o cargo em comissão de Assessor, símbolo DAS-7, da Secretaria de Estado de Planejamento e Gestão, anteriormente ocupado por Amauri Ferrei- ra do Carmo, ID Funcional nº 5099579-0. Processo nº SEI- 1 2 0 0 0 1 / 0 1 4 6 11 / 2 0 2 0 .
从上面的文本块中,我只想获取每个段落中作为单独一行的粗体值
我所尝试的:
filter_data_nomear = ['NOMEAR ISABELLE FERREIRA ZARONI, ID FUNCIONAL Nº\n5100796-7, para exercer, com validade a contar de 16 de novembro\nde 2020, o cargo em comissão de Assessor, símbolo DAS-7, da Sub-\nsecretaria de Concessões e Parcerias, da Secretaria de Estado de\nPlanejamento e Gestão, anteriormente ocupado por Vinicius dos San-\ntos Silva, ID Funcional n° 5108029-0. Processo nº SEI-\n1 2 0 0 0 1 / 0 1 4 6 11 / 2 0 2 0 .', 'NOMEAR KARINE MATOS DIAS, ID FUNCIONAL Nº 5092869-4 para\nexercer, com validade a contar de 16 de novembro de 2020, o cargo\nem comissão de Assessor, símbolo DAS-7, da Secretaria de Estado\nde Planejamento e Gestão, anteriormente ocupado por Amauri Ferrei-\nra do Carmo, ID Funcional nº 5099579-0. Processo nº SEI-\n1 2 0 0 0 1 / 0 1 4 6 11 / 2 0 2 0 .', 'NOMEAR ROSIONE FERNANDES DE SÁ, ID FUNCIONAL Nº\n4413710-9, para exercer, com validade a contar de 16 de novembro\nde 2020, o cargo em comissão de Assistente II, símbolo DAI-6, da\nSecretaria de Estado de Planejamento e Gestão, anteriormente ocu-\npado por Luis Henrique Ferreira de Aquino, ID Funcional nº 1914315-\n0. Processo nº SEI-120001/014825/2020.', 'NOMEAR FRANCISCO DE ASSIS PINTO CAVALCANTE para exer-\ncer, com validade a contar de 16 de novembro de 2020, o cargo em\ncomissão de Assistente II, símbolo DAI-6, da Secretaria de Estado de\nPlanejamento e Gestão, anteriormente ocupado por Edson Carneiro\nda Silva, ID Funcional nº 570136-8. Processo nº SEI-\n120001/014825/2020.']
for i in filter_data_nomear:
splited_ini = i.split(',')
splited_ini = list(filter(lambda x: x != 'para exercer', splited_ini))
splited = [x.strip() \
.replace("\n",' ') \
.replace('anteriormente ocupado por ','') \
.replace('para exercer','') \
.replace('anteriormente ocupado por ','') \
.replace('NOMEAR','') \
.replace('o cargo em comissão de ','') \
.replace('ID FUNCIONAL Nº ','') \
.replace('com validade a contar de ','') \
.replace('ID Funcional ','') \
.replace('Processo nº SEI-','') \
.replace('símbolo ','') \
.strip() \
.replace(u"nº",'--') \
.replace('para exer- cer','') \
.strip() for x in splited_ini]
我的当前输出:
['ISABELLE FERREIRA ZARONI', '5100796-7', '16 de novembro de 2020', 'Assessor', 'DAS-7', 'da Sub- secretaria de Concessões e Parcerias', 'da Secretaria de Estado de Planejamento e Gestão', 'Vinicius dos San- tos Silva', 'n° 5108029-0. 1 2 0 0 0 1 / 0 1 4 6 11 / 2 0 2 0 .']
我当前的输出几乎正常,但是有多个replace()
的问题,这个静态替换有时也会破坏我的代码。那么,有没有其他方法可以通过在粗体文本上使用正则表达式匹配来实现呢
要获取粗体的值,可以使用3个捕获组,并进行替换:
部分地
\b
防止单词成为较长单词的一部分的单词边界(?:
非捕获组(?:NOMEAR|d[ea]|por)
匹配其中一个{([^,]+?)
捕获组1,匹配除,
非贪婪字符以外的任何字符(?: e Gestão)?,
可选地匹配e Gestão
和匹配,
|
或([A-Z\d]+-\d+)
在组2中捕获匹配1+次A-Z或一个数字和-
和1+个数字|
或SEI- ([\d /]+)\b
MatchSEI-
,在第3组中捕获列出的单词之一,后跟单词边界)
关闭非捕获组Regex demoPython demo
比如说
输出
相关问题 更多 >
编程相关推荐