重写Scrapy中的parse_start_url（），并将爬网深度限制为1

2024-09-29 21:50:17 发布

男 | 程序猿一只，喜欢编程写python代码。

我使用Scrapy对一个站点进行爬网，并重写了parse_start_url()以抓取起始url。在

但是，这意味着，当我将DEPTH_LIMIT设置设置为1时，Scrapy会在深度2处爬行（因为我想，如果开始url通常被解析的话，不计入深度是有意义的）。当爬行的深度不是1时，这是可以的，因为我可以将DEPTH_LIMIT减少1来说明这一点。但是，当在深度1处爬行时，这将不起作用，因为0的DEPTH_LIMIT被视为无限深度。在

有谁能想出一种方法来解析起始url并且深度限制为1吗？在

或者我应该写我自己的DepthMiddleware？在

Tags：方法 url 站点 parse start 意义 scrapy limit

1条回答

网友

1楼 · 发布于 2024-09-29 21:50:17

当您从^{}方法生成请求时，请设置meta['depth']：

yield Request(url, meta={'depth': 1})

这应该可以做到这一点，因为在^{}中，当响应到达时，它将递增1:

^{pr2}$

重写Scrapy中的parse_start_url（），并将爬网深度限制为1

相关问题更多 >

编程相关推荐

热门问题

热门文章

重写Scrapy中的parse_start_url（），并将爬网深度限制为1

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >