如何删除没有内容的标记

2024-05-18 16:17:03 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在开发一些旧的html,它有很多空标记:<i style='mso-bidi-font-style:normal'><span style='font-size:11.0pt;font-family: Univers;mso-bidi-font-family:Arial'><o:p></o:p></span></i>。这严重破坏了我用来遍历树的算法。

是否有方法在遍历美化组对象之前对其进行清理?

from bs4 import BeautifulSoup

html_object = """
<i style='mso-bidi-font-style:normal'><span style='font-size:11.0pt;font-family:
Univers;mso-bidi-font-family:Arial'><o:p></o:p></span></i>
"""
soup = BeautifulSoup(html_object, "lxml")

甚至.prettify()都无法删除空标记:

>>> print(soup.prettify())
<html>
 <body>
  <i style="mso-bidi-font-style:normal">
   <span style="font-size:11.0pt;font-family:
  Univers;mso-bidi-font-family:Arial">
    <o:p>
    </o:p>
   </span>
  </i>
 </body>
</html>

我想看到这个调用的输出完全为空。


Tags: 标记ptsizeobjectstylehtmlfamilyspan

热门问题