擅长:python、mysql、java
<p>尝试使用<a href="http://codespeak.net/lxml/lxmlhtml.html" rel="nofollow noreferrer">^{<cd1>}</a>。它是一个更快、更好的html解析器,并且比最新的beauthoulsoup更好地处理损坏的html。它可以很好地处理示例页面,解析整个页面。在</p>
<pre><code>import lxml.html
doc = lxml.html.parse('http://voinici.ceata.org/~sana/test.html')
print len(doc.findall('//div'))
</code></pre>
<p>上面的代码返回131个div。在</p>