目标
用Scrapy和Python制作一个两级的deepweb爬虫程序。在
问题
该网站是在一个结构,一个网页,大约有10个项目,爬虫是跟踪链接和提取正确的数据。问题是这种结构对于10页是递归的,但是最后几页的链接是更改的,并且被注释定向到home1,而不是home2。对于第2页到第10页,我们希望爬虫程序执行相同的例程,因为爬虫程序所遵循的模式在这些页面上递归重复。在
网站结构
->website.com
--> /home1
---> /page/2
--> /home2/doc/item
我可以使用下一个爬虫从第一级访问数据。在
一级爬虫
^{pr2}$
我不确定我是否完全理解您的问题,但是如果您试图从第一页抓取多个URL,您可以在start_URL数组中列出它们。这将允许您独立抓取每个页面。在
但是,如果您想爬网home1并跟踪记录URL的顺序,以便可以在以下home2、home3等中对它们进行爬网。您可以创建一个全局列表并将URL保存到列表中。另一个选择是创建一个URL的列表,并使用带有恶心。请求. 在
请澄清,很难理解用例。在
相关问题 更多 >
编程相关推荐