我想使用GAE来爬取网站并将结果发布到Google实体

2024-07-02 11:45:44 发布

您现在位置:Python中文网/ 问答频道 /正文

我想抓取这个网址:https://www.xstreetsl.com/modules.php?searchSubmitImage_x=0&searchSubmitImage_y=0&SearchLocale=0&name=Marketplace&SearchKeyword=business&searchSubmitImage.x=0&searchSubmitImage.y=0&SearchLocale=0&SearchPriceMin=&SearchPriceMax=&SearchRatingMin=&SearchRatingMax=&sort=&dir=asc

进入每个链接,提取出各种信息,例如权限、prims等,然后将结果发布到googleappengine上的一个实体中。在

我想知道最好的解决方法?在

克里斯


Tags: namehttpscommoduleswwwbusinessphp网址
2条回答

对于使用纯Python库规范化HTML,我对html5lib的经验比BeautifulSoup要好。在

但是,您只想提取简单的结构化信息,实际上并不需要规范化HTML。我在googleappengine上有几个抓取应用程序,它们使用了与原始HTML一起工作的my own xpath library。 或者可以将正则表达式用于一次性作业。在

在Python中可以使用几个不错的屏幕抓取库。在

也许最容易用的高级刮刀是scrapy。它依赖于Twisted来实现主引擎,但是提供了一个非常易于使用的接口来实现定制的抓取代码。在

否则,您可以考虑使用BeautifulSoup,或Mechanize之类的东西来更手动地执行它,这提供了一个“机械”的浏览器实现。在

beauthoulsoup和Mechanize都应该在appengine上开箱即用——它为httplib和urllib提供了一个包装器,它使用urlphetch作为后端。只有刮痧会有问题,因为它的使用扭曲。[感谢尼克·约翰逊的更新]。在

相关问题 更多 >