如何在scrapy中使用CrawlSpider处理http错误代码

import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from scrapy import log class IcrawlerSpider(CrawlSpider): name = 'icrawler' def __init__(self, *args, **kwargs): # We are going to pass these args from our django view. # To make everything dynamic, we need to override them inside__init__method handle_httpstatus_all = True self.url = kwargs.get('url') self.domain = kwargs.get('domain') self.start_urls = [self.url] self.allowed_domains = [self.domain] IcrawlerSpider.rules = [ Rule(LinkExtractor(unique=True), callback='parse_item'), ] super(IcrawlerSpider, self).__init__(*args, **kwargs) def parse_item(self, response): # You can tweak each crawled page here # Don't forget to return an object. if response.status==403: self.logger.errror("ERROR_CODE_RETURNED: " + response.status) i = {} i['url'] = response.url i['status_code'] = response.status return i

2条回答

网友

1楼 · 编辑于 2024-10-02 02:41:49

标记handle_httpstatus_all应该在每个请求的meta中设置，请检查文档here。在

关于设置，您可以使用HTTPERROR_ALLOW_ALL或设置{}的列表。在

像这样：

class IcrawlerSpider(CrawlSpider):
    name = 'icrawler'
    custom_settings = {'HTTPERROR_ALLOW_ALL': True}

或者重构蜘蛛来调用请求，比如yield Request(link, self.parse_item, meta={'handle_httpstatus_all': True}) 我不知道如何将元参数应用于规则。在

网友

2楼 · 编辑于 2024-10-02 02:41:49

如果需要使用规则来执行此操作，则可以通过提供process_request回调来修改生成的请求。以下是总结：

class IcrawlerSpider(CrawlSpider):
    def __init__(self, *args, **kwargs):
        # ...
        IcrawlerSpider.rules = [
           Rule(LinkExtractor(unique=True), callback='parse_item', process_request='add_meta'),
        ]

    def add_meta(self, request):
        request.meta['handle_httpstatus_all'] = True
        return request

引用documentation和example。在

相关问题更多 >

编程相关推荐

热门问题

热门文章