废LinkExtractor和设置深度限制不起作用？

rules = ( Rule(LinkExtractor(allow=('regexToMatchArticleUrls',), deny=('someDenyUrls')), callback='parse_article_page'), ) def parse_article_page(self,response): #extracts the title, date, body, etc of article

1条回答

网友

1楼 · 发布于 2024-09-28 01:31:38

为了使depthmidleware正常工作，需要将meta属性从一个请求传递到另一个请求，否则，depth将在每个新请求之后设置为0。在

不幸的是，默认情况下，crawspider不会在一个请求到下一个请求之间保留这个meta属性。在

这可以通过使用spider中间件（middlewares.py）来解决：

from scrapy import Request


class StickyDepthSpiderMiddleware:

    def process_spider_output(self, response, result, spider):
        key_found = response.meta.get('depth', None)
        for x in result:
            if isinstance(x, Request) and key_found is not None:
                x.meta.setdefault('depth', key_found)
            yield x

另外，别忘了在您的settings.py中包含此中间件：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

废LinkExtractor和设置深度限制不起作用？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >