我正在开发一些旧的html,它有很多空标记:<i style='mso-bidi-font-style:normal'><span style='font-size:11.0pt;font-family: Univers;mso-bidi-font-family:Arial'><o:p></o:p></span></i>
。这严重破坏了我用来遍历树的算法。
是否有方法在遍历美化组对象之前对其进行清理?
from bs4 import BeautifulSoup
html_object = """
<i style='mso-bidi-font-style:normal'><span style='font-size:11.0pt;font-family:
Univers;mso-bidi-font-family:Arial'><o:p></o:p></span></i>
"""
soup = BeautifulSoup(html_object, "lxml")
甚至.prettify()
都无法删除空标记:
>>> print(soup.prettify())
<html>
<body>
<i style="mso-bidi-font-style:normal">
<span style="font-size:11.0pt;font-family:
Univers;mso-bidi-font-family:Arial">
<o:p>
</o:p>
</span>
</i>
</body>
</html>
我想看到这个调用的输出完全为空。
目前没有回答
相关问题 更多 >
编程相关推荐