擅长:python、mysql、java
<p>在Python中可以使用几个不错的屏幕抓取库。在</p>
<p>也许最容易用的高级刮刀是<a href="http://scrapy.org/" rel="nofollow noreferrer">scrapy</a>。它依赖于<a href="http://twistedmatrix.com/trac/" rel="nofollow noreferrer">Twisted</a>来实现主引擎,但是提供了一个非常易于使用的接口来实现定制的抓取代码。在</p>
<p>否则,您可以考虑使用<a href="http://www.crummy.com/software/BeautifulSoup/" rel="nofollow noreferrer">BeautifulSoup</a>,或<a href="http://wwwsearch.sourceforge.net/mechanize/" rel="nofollow noreferrer">Mechanize</a>之类的东西来更手动地执行它,这提供了一个“机械”的浏览器实现。在</p>
<p>beauthoulsoup和Mechanize都应该在appengine上开箱即用——它为httplib和urllib提供了一个包装器,它使用urlphetch作为后端。只有刮痧会有问题,因为它的使用扭曲。[感谢尼克·约翰逊的更新]。在</p>