我想使用GAE来爬取网站并将结果发布到Google实体

2条回答

网友

1楼 · 编辑于 2024-07-02 11:45:44

对于使用纯Python库规范化HTML，我对html5lib的经验比BeautifulSoup要好。在

但是，您只想提取简单的结构化信息，实际上并不需要规范化HTML。我在googleappengine上有几个抓取应用程序，它们使用了与原始HTML一起工作的my own xpath library。或者可以将正则表达式用于一次性作业。在

网友

2楼 · 编辑于 2024-07-02 11:45:44

在Python中可以使用几个不错的屏幕抓取库。在

也许最容易用的高级刮刀是scrapy。它依赖于Twisted来实现主引擎，但是提供了一个非常易于使用的接口来实现定制的抓取代码。在

否则，您可以考虑使用BeautifulSoup，或Mechanize之类的东西来更手动地执行它，这提供了一个“机械”的浏览器实现。在

beauthoulsoup和Mechanize都应该在appengine上开箱即用——它为httplib和urllib提供了一个包装器，它使用urlphetch作为后端。只有刮痧会有问题，因为它的使用扭曲。[感谢尼克·约翰逊的更新]。在