Regex用于提取以先生|夫人|博士开头的名字

HONOURABLE THE CHIEF JUSTICE MR. JUSTICE 1 VIKRAM NATH,HONOURABLE MR. JUSTICE 1 1 0 3 5 J.B.PARDIWALA HONOURABLE THE CHIEF JUSTICE MR. JUSTICE 2 VIKRAM NATH,HONOURABLE MR. JUSTICE VIPUL M. 0 1 0 0 1 PANCHOLI HONOURABLE THE CHIEF JUSTICE MR. JUSTICE 3 VIKRAM NATH,HONOURABLE MR. JUSTICE ASHUTOSH 107 4 10 6 127 J. SHASTRI

1条回答

网友

1楼 · 发布于 2024-10-06 09:46:48

悬赏回答

你可以用

import re
text = """     HONOURABLE THE CHIEF JUSTICE MR. JUSTICE
 1    VIKRAM NATH,HONOURABLE MR. JUSTICE             1     1      0     3       5
      J.B.PARDIWALA
      HONOURABLE THE CHIEF JUSTICE MR. JUSTICE
 2    VIKRAM NATH,HONOURABLE MR. JUSTICE VIPUL M.    0     1      0     0       1
      PANCHOLI
      HONOURABLE THE CHIEF JUSTICE MR. JUSTICE
 3    VIKRAM NATH,HONOURABLE MR. JUSTICE ASHUTOSH   107    4     10     6      127
      J. SHASTRI"""
text = re.sub(r'^[\d \t]+|[\d \t]+$', '', text, flags=re.M)
#print(text)
m = re.findall(r'^HONOURABLE\s+(.*(?:\n(?!HONOURABLE\b).*)*)', text, re.M)
for x in m:
    print(x.replace('\n',' '))

输出：

[
  'THE CHIEF JUSTICE MR. JUSTICE VIKRAM NATH,HONOURABLE MR. JUSTICE J.B.PARDIWALA',
  'THE CHIEF JUSTICE MR. JUSTICE VIKRAM NATH,HONOURABLE MR. JUSTICE VIPUL M. PANCHOLI',
  'THE CHIEF JUSTICE MR. JUSTICE VIKRAM NATH,HONOURABLE MR. JUSTICE ASHUTOSH J. SHASTRI'
]

见Python demo

详细信息：

re.sub(r'^[\d \t]+|[\d \t]+$', '', text, flags=re.M)删除文本中每行开头和结尾的所有空格、制表符和数字
r'^HONOURABLE\s+(.*(?:\n(?!HONOURABLE\b).*)*)'是一个正则表达式，在“修剪”文本中匹配以下内容：
^-行的开始
HONOURABLE-一个单词HONOURABLE
\s+-一个或多个空格
(.*(?:\n(?!HONOURABLE\b).*)*)-捕获组1：
- .*-行的其余部分
- (?:\n(?!HONOURABLE\b).*)*-零行或多行不以HONOURABLE作为一个完整单词开头

原始答案 你可以用

\bHONOURABLE\s+((?:THE|MR|MS|DR)[^,]*)

见regex demo。如果不希望在生成的列表项中有换行符，可以稍后将其替换为.replace('\n', ' ')。如果要在[、\和]处限制匹配项的右侧边界，请将它们添加到求反字符类，将[^,]更改为[^][/,]

详细信息：

\bHONOURABLE-一个完整的单词{}
\s+-一个或多个空格
((?:THE|MR|MS|DR)[^,]*)-捕获组1:THE、MR、MS、DR后跟除逗号以外的零个或多个字符

见a Python demo：

import re
rx = r"\bHONOURABLE\s+((?:THE|MR|MS|DR)\b[^,]*)"
text = "HONOURABLE THE CHIEF JUSTICE MR. JUSTICE\nVIKRAM NATH,HONOURABLE MR. JUSTICE ASHUTOSH\nJ. SHASTRI, HONOURABLE MS. ADITI GUPTA"
m = re.findall(rx, text)
print([x.replace('\n','') for x in m])

输出：

['THE CHIEF JUSTICE MR. JUSTICEVIKRAM NATH', 'MR. JUSTICE ASHUTOSHJ. SHASTRI', 'MS. ADITI GUPTA']

相关问题更多 >

编程相关推荐

热门问题

热门文章