我有以下文字:<p class="class">lorem</p> <p >ipsum</p > <p><p>lorem ipsum</p></p>
我需要把它分成四组(有规律的表达):
<p class="class">lorem</p>
<p >ipsum</p >
<p><p>lorem ipsum</p></p>
<p>lorem ipsum</p>
我想我应该这样做:
<p></p>
-用于段落<p\s></p\s*>
-对于<p
之后的空白和>
之前的无限空白<p\s.*></p\s*>
-对于p>
之前的任何字符(对于类等)<p\s.*>.*</p\s*>
-对于段落的任何值但是现在,如果我有<p>Lorem</p> <p>Ipsum</p>
,我得到一个['<p>Lorem</p> <p>Ipsum</p>']
。我明白为什么,但我不知道如何改进它,因为我需要两个组['<p>Lorem</p>', '<p>Ipsum</p>']
。你有什么想法吗?在
PS:我使用Python和re-module。在
在re
.*
是贪婪的,这意味着它将尽可能多地匹配文本。添加?
使文本不贪婪:以下是文档:
^{pr2}$可在此处获取文档:
https://docs.python.org/2/library/re.html
相关问题 更多 >
编程相关推荐