用RegExp拆分电报消息

2条回答

网友

1楼 · 编辑于 2024-10-03 17:26:49

这个解决方案在Pyton 2.7.10的MacAir中试用过。它应该足够接近Windows10上的Python2.7。在

解决方案：

with open('data.txt', 'r') as myfile:
    data=myfile.read()

import re

p = re.compile('(\d{2}\.\d{2}\.\d{4} \d{2}:\d{2}:\d{2},(?s).*?)(?=\n\d{2}\.\d{2}\.\d{4} \d{2}:\d{2}:\d{2},|$)')

l = p.findall(data)

结果：

^{pr2}$

详细信息：

首先，数据.txt包含您的数据，并将其作为字符串读入名为data的变量中。正则表达式：

(\d{2}\.\d{2}\.\d{4} \d{2}:\d{2}:\d{2},(?s).*?)(?=\n\d{2}\.\d{2}\.\d{4} \d{2}:\d{2}:\d{2},|$)

已编译。(?s)用s，DOTALL，标志匹配模式的其余部分，这使得.匹配任何字符，包括换行符。该正则表达式与您尝试的非常相似，只是它在*后面使用?使其成为非gree。另外，它使用|使$（字符串的结尾）成为匹配的另一个结尾。在

最后，findall()用于查找重新匹配的所有子字符串，并将它们作为列表返回。在

编辑：我在正则表达式中添加了一个\n，新行，字符，就在“积极展望”之后，?=，以便从结果中消除消息之间的空行。这是来自@lenik的评论的结果，这样我的结果将与你的“类似这样的事情：”列表完全匹配。在

另外，我在bashshell上执行时删除了输出，因为它不是必需的，特别是因为您使用的是windows10。在

网友

2楼 · 编辑于 2024-10-03 17:26:49

一种更简单的方法，可以得到所需的结果：

import re

result = []
for i in data.split('\n') :    # data   is your original text
    if re.search( r'^\d\d\.\d\d\.\d\d\d\d', i) is None :
        result[-1] += '\n' + i
    else :
        result.append(i)

假设data有原始文本，则结果：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章