我使用Scrapy对一个站点进行爬网,并重写了parse_start_url()
以抓取起始url。在
但是,这意味着,当我将DEPTH_LIMIT
设置设置为1时,Scrapy会在深度2处爬行(因为我想,如果开始url通常被解析的话,不计入深度是有意义的)。当爬行的深度不是1时,这是可以的,因为我可以将DEPTH_LIMIT
减少1来说明这一点。但是,当在深度1处爬行时,这将不起作用,因为0的DEPTH_LIMIT
被视为无限深度。在
有谁能想出一种方法来解析起始url并且深度限制为1吗?在
或者我应该写我自己的DepthMiddleware
?在
当您从^{} 方法生成请求时,请设置
meta['depth']
:这应该可以做到这一点,因为在^{} 中,当响应到达时,它将递增1:
^{pr2}$相关问题 更多 >
编程相关推荐