从Pattern1检索文本到Pattern2 Python

PATTERN1 PTR1 blah blah blah needThis blah blah blah thisOneAsWell blah blah blah PATTERN2 PATTERN1 PTR2 blah blah blah needThis blah blah blah thisOneAsWell blah blah blah PATTERN2 ............................ ............................ PATTERN1 PTRN blah blah needThis blah blah blah thisOneAsWell blah blah blah PATTERN2

2条回答

网友

1楼 · 编辑于 2024-09-27 19:29:39

可以嵌套两个正则表达式：

txt='''\
PATTERN1 PTR1 blah blah blah
needThis1  blah blah blah
thisOneAsWell1  blah blah blah
PATTERN2

PATTERN1 PTR2 blah blah blah
needThis2  blah blah blah
thisOneAsWell2  blah blah blah
PATTERN2 

............................
............................

PATTERN1  PTRN blah blah
needThisN  blah blah blah
thisOneAsWellN blah blah blah
PATTERN2'''

import re

for m in re.finditer(r'^PATTERN1\s*(.*?)(?=^PATTERN2)', txt, re.M | re.S):
    print re.findall(r'(^\w+)', m.group(1), re.M)

印刷品：

['PTR1', 'needThis1', 'thisOneAsWell1']
['PTR2', 'needThis2', 'thisOneAsWell2']
['PTRN', 'needThisN', 'thisOneAsWellN']

编辑1

如果您使用的文件很容易放入内存：

with open(fn) as f:
    txt=f.read()
    for m in re.finditer(r'^PATTERN1\s*(.*?)(?=^PATTERN2)', txt, re.M | re.S):
        print re.findall(r'(^\w+)', m.group(1), re.M)

使用mmap处理不容易放入内存的较大文件。你知道吗

编辑2

将结果合并成字符串后，只需将结果附加到列表中：

with open(fn) as f:
    results=[]
    txt=f.read()
    for m in re.finditer(r'^PATTERN1\s*(.*?)(?=^PATTERN2)', txt, re.M | re.S):
        results.append('\n'.join(re.findall(r'(^\w+)', m.group(1), re.M))
    print '\n===\n'.join(results)

网友

2楼 · 编辑于 2024-09-27 19:29:39

import re
with open('file', 'r') as f:
    content = f.read()
    matches = re.findall(r'PATTERN1(.*?)PATTERN2', content, re.MULTILINE|re.DOTALL)

for match in matches:
    for line in match.split('\n'):
        columns = line.split()
        if columns:
            print(columns[0])

相关问题更多 >

编程相关推荐

热门问题

热门文章

从Pattern1检索文本到Pattern2 Python

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >