擅长:python、mysql、java
<p>既然您已经在使用lxml,您是否尝试过<a href="http://lxml.de/" rel="nofollow noreferrer">lxml's</a><a href="http://lxml.de/elementsoup.html" rel="nofollow noreferrer">ElementSoup</a>模块?</p>
<p>如果ElementSoup无法修复HTML,那么您可能需要首先应用自己的过滤器,这些过滤器基于您自己对数据如何损坏的观察。</p>