Python中的正则表达式模式

2021-01-01 10:00:05 - Surname1 Name1 (Comment) Blablabla Blabla 2021-01-01 23:00:05 - Surname2 SurnameBis Name2 (WorkNotes) What? I don't know? 2021-01-02 03:00:05 - Surname1 Name1 (Comment) Blablabla!

[(2021-01-01,10:00:05,Surname1 Name1,Comment,Blablabla/nBlabla), (2021-01-01,23:00:05,Surname2 SurnameBis Name2,WorkNotes,What?/nI don't know?), (2021-01-02,03:00:05,Surname1 Name1,Comment,Blablabla!)]

text2 = """2021-01-01 10:00:05 - Surname1 Name1 (Comment) Blablabla Blabla 2021-01-01 23:00:05 - Surname2 SurnameBis Name2 (WorkNotes) What? I don't know? Can you be clear? 2021-01-02 03:00:05 - Surname1 Name1 (Comment) Blablabla!""" LangTag = re.findall("(\d{4}-\d{2}-\d{2})\s(\d{2}:\d{2}:\d{2})\s-\s(.*?)$(.*)$\\n(.*)(?:\\n|$)", text2) print(LangTag)

3条回答

网友

1楼 · 编辑于 2024-10-03 04:34:30

我的解决方案与您的几乎相同，但将组5从.*转换为\D*，因此它将匹配所有内容，直到下一个数字

import re
text = """2021-01-01 10:00:05 - Surname1 Name1 (Comment)
Blablabla
Blabla
2021-01-01 23:00:05 - Surname2 SurnameBis Name2 (WorkNotes)
What?
I don't know?
2021-01-02 03:00:05 - Surname1 Name1 (Comment)
Blablabla!"""
result = re.findall(r"(\d{4}-\d{2}-\d{2})\s(\d{2}:\d{2}:\d{2})\s-\s(.*?)\((.*)\)\n(\D*)(?:\n|$)", text)
print(result)

输出：

[('2021-01-01', '10:00:05', 'Surname1 Name1 ', 'Comment', 'Blablabla\nBlabla'),
 ('2021-01-01', '23:00:05', 'Surname2 SurnameBis Name2 ', 'WorkNotes', "What?\nI don't know?"), 
 ('2021-01-02', '03:00:05', 'Surname1 Name1 ', 'Comment', 'Blablabla!')]

网友

2楼 · 编辑于 2024-10-03 04:34:30

你可以通过解决第一个问题来解决你的问题。然后重复该解决方案直到数据结束。通过这种分而治之的策略，代码很容易理解，但可以解决更大的问题，并且可以很容易地进行扩展

import re

data = '''2021-01-01 10:00:05 - Surname1 Name1 (Comment)
Blablabla
Blabla
2021-01-01 23:00:05 - Surname2 SurnameBis Name2 (WorkNotes)
What?
I don't know?
2021-01-02 03:00:05 - Surname1 Name1 (Comment)
Blablabla!'''.splitlines()

first_line_patt = re.compile(r'^(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}:\d{2}) - (.*)(?= \() \((.*)\)$')


def parse_block(lines, idx):
    # parse the meta line
    res = first_line_patt.findall(lines[idx])

    # get the message
    message = []
    while idx < len(lines)-1:
        line = lines[idx + 1]
        idx += 1

        # check if next line is a meta line
        if first_line_patt.match(line):
            break

        # if not, it is a message line
        message.append(line)

    res.append('\n'.join(message))
    return res, idx


idx = 0
while True:
    res, idx = parse_block(data, idx)
    if not res[0]:
        break
    print(res)

这将产生以下结果：

[('2021-01-01', '10:00:05', 'Surname1 Name1', 'Comment'), 'Blablabla\nBlabla']
[('2021-01-01', '23:00:05', 'Surname2 SurnameBis Name2', 'WorkNotes'), "What?\nI don't know?"]
[('2021-01-02', '03:00:05', 'Surname1 Name1', 'Comment'), 'Blablabla!']

网友

3楼 · 编辑于 2024-10-03 04:34:30

您可以像这样解析数据

import re

data = """2021-01-01 10:00:05 - Surname1 Name1 (Comment)
Blablabla
Blabla
2021-01-01 23:00:05 - Surname2 SurnameBis Name2 (WorkNotes)
What?
I don't know?
2021-01-02 03:00:05 - Surname1 Name1 (Comment)
Blablabla!"""

def parse(data):
    text = ""
    match = None
    messages = []
    for line in data.split("\n"):
        m = re.match("^(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}:\d{2}) - (.*?) \((.*?)\)$", line)
        if m:
            if match:
                msg = (match.group(1), match.group(2), match.group(3), match.group(4), text)
                messages.append(msg)
            match = m
        else:
            text += line + "\n"
    msg = (match.group(1), match.group(2), match.group(3), match.group(4), text)
    messages.append(msg)
    return messages

for message in parse(data):
    print(message)

这个输出

('2021-01-01', '10:00:05', 'Surname1 Name1', 'Comment', 'Blablabla\nBlabla\n')
('2021-01-01', '23:00:05', 'Surname2 SurnameBis Name2', 'WorkNotes', "Blablabla\nBlabla\nWhat?\nI don't know?\n")
('2021-01-02', '03:00:05', 'Surname1 Name1', 'Comment', "Blablabla\nBlabla\nWhat?\nI don't know?\nBlablabla!\n")

相关问题更多 >

编程相关推荐

热门问题

热门文章