如何在python中解析格式错误的HTML - 问答 - Python中文网

如何在python中解析格式错误的HTML

2024-06-16 21:42:39 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我需要浏览解析的HTML文档的DOM树。

在用lxml解析字符串之前，我正在使用uTidyLib

a=tidy.parseString（html代码，选项） dom=etree.fromstring（str（a））

有时我会得到一个错误，似乎tidylib无法修复格式错误的html。

如何在不出错的情况下解析每个HTML文件（仅解析无法修复的部分文件）？

Tags：文件字符串代码文档 html 选项错误 lxml

2条回答

网友

1楼 · 编辑于 2024-06-16 21:42:39

既然您已经在使用lxml，您是否尝试过lxml's ElementSoup模块？

如果ElementSoup无法修复HTML，那么您可能需要首先应用自己的过滤器，这些过滤器基于您自己对数据如何损坏的观察。

网友

2楼 · 编辑于 2024-06-16 21:42:39

Beautiful Soup很好地处理了无效/损坏的HTML

>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<htm@)($*><body><table <tr><td>hi</tr></td></body><html")
>>> print soup.prettify()
<htm>
 <body>
  <table>
   <tr>
    <td>
     hi
    </td>
   </tr>
  </table>
 </body>
</htm>

相关问题更多 >

编程相关推荐

热门问题

热门文章