正则表达式匹配两个字符串之间的所有文本

网友

1楼 · 编辑于 2024-09-26 05:00:36

我认为regex不是一个很好的工具。你可以用一个循环。。在

>>> import collections
>>> d = collections.defaultdict(list)
>>> with open('/tmp/spam.txt') as f:
...   t = 'initial'
...   for line in f:
...     if line.startswith('#'):
...       t = line.strip()
...     else:
...       d[t].append(line.strip())
... 
>>> for k,v in d.iteritems():
...   print k, len(v)
... 
#1299 4
#100 3
#1335 6

网友

2楼 · 编辑于 2024-09-26 05:00:36

原因是点与换行符不匹配，所以表达式只匹配包含时间戳的行；匹配不会跨越多行。您可以将"dotall" flag传递给re.compile，这样表达式将跨多行匹配。既然您说“event encodings”也可能包含一个#字符，那么您可能还需要使用多行标志，并在开始处使用^来定位匹配项，这样它只匹配行开头的#。在

网友

3楼 · 编辑于 2024-09-26 05:00:36

如果您坚持使用基于regex的解决方案，我建议：

>>> pat = re.compile(r'(^#[0-9]{2,})\s*\n((?:[^#].*\n)*)', re.MULTILINE)
>>> for t, e in pat.findall(s):
...     print t, e.count('\n')
...
#100 3
#1299 4
#1335 6

说明：

^{pr2}$

你似乎误解了消极展望的作用。在.*之后，regex引擎首先尝试使用尽可能多的字符，然后才检查lookahead模式。如果lookahead不匹配，它将逐个字符回溯，直到匹配为止。在

但是，您可以将正lookahead与非贪心的.*?一起使用。在这里，.*?将使用字符，直到lookahead在一行的开头看到一个#，或者在整个字符串的末尾：

re.compile(r'(^#[0-9]{2,})\s*\n(.*?)(?=^#|\Z)', re.DOTALL | re.MULTILINE)

相关问题更多 >

编程相关推荐

热门问题

热门文章

正则表达式匹配两个字符串之间的所有文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >