a(嵌套)html标记的正则表达式

2024-09-27 19:18:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我有以下文字:<p class="class">lorem</p> <p >ipsum</p > <p><p>lorem ipsum</p></p> 我需要把它分成四组(有规律的表达):

  1. <p class="class">lorem</p>
  2. <p >ipsum</p >
  3. <p><p>lorem ipsum</p></p>
  4. <p>lorem ipsum</p>

我想我应该这样做:

  1. <p></p>-用于段落
  2. <p\s></p\s*>-对于<p之后的空白和>之前的无限空白
  3. <p\s.*></p\s*>-对于p>之前的任何字符(对于类等)
  4. <p\s.*>.*</p\s*>-对于段落的任何值

但是现在,如果我有<p>Lorem</p> <p>Ipsum</p>,我得到一个['<p>Lorem</p> <p>Ipsum</p>']。我明白为什么,但我不知道如何改进它,因为我需要两个组['<p>Lorem</p>', '<p>Ipsum</p>']。你有什么想法吗?在

PS:我使用Python和re-module。在


Tags: re字符空白classps段落module文字

热门问题