重写Scrapy中的parse_start_url(),并将爬网深度限制为1

2024-09-29 21:50:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用Scrapy对一个站点进行爬网,并重写了parse_start_url()以抓取起始url。在

但是,这意味着,当我将DEPTH_LIMIT设置设置为1时,Scrapy会在深度2处爬行(因为我想,如果开始url通常被解析的话,不计入深度是有意义的)。当爬行的深度不是1时,这是可以的,因为我可以将DEPTH_LIMIT减少1来说明这一点。但是,当在深度1处爬行时,这将不起作用,因为0的DEPTH_LIMIT被视为无限深度。在

有谁能想出一种方法来解析起始url并且深度限制为1吗?在

或者我应该写我自己的DepthMiddleware?在


Tags: 方法url站点parsestart意义scrapylimit

热门问题