擅长:python、mysql、java
<p>对于使用纯Python库规范化HTML,我对<a href="http://code.google.com/p/html5lib/" rel="nofollow noreferrer">html5lib</a>的经验比BeautifulSoup要好。在</p>
<p>但是,您只想提取简单的结构化信息,实际上并不需要规范化HTML。我在googleappengine上有几个抓取应用程序,它们使用了与原始HTML一起工作的<a href="http://code.google.com/p/webscraping/source/browse/xpath.py" rel="nofollow noreferrer">my own xpath library</a>。
或者可以将正则表达式用于一次性作业。在</p>