擅长:python、mysql、java
<p>提示:</p>
<ol>
<li><p>BeautifulSoup可以采用<strong>文件句柄,而不是HTML字符串。这稍微简单一点,如果您的文本更接近页面的开头,可能会更快</p>
<pre><code>soup = BeautifulSoup(urllib2.urlopen(url))
</code></pre></li>
<li><p>另一个选项是<strong>正则表达式。它们相当快,但要正确构建也是一个挑战,如果页面格式发生变化,它们就会中断。除非你被困住了,否则就坚持用美苏</p></li>
<li><p>BeautifulSoup可以使用几个不同的解析器库,在空间/时间/可靠性方面进行不同的权衡。参见:<a href="http://www.crummy.com/software/BeautifulSoup/bs4/doc/" rel="nofollow">http://www.crummy.com/software/BeautifulSoup/bs4/doc/</a></p></li>
</ol>