避免错页

next_pages = response.xpath("//div[@class='pgLightPrevNext']/a/@href").extract() #essai pour accéder au contenu des pages suivantes for next in next_pages: absolute_url = self.base_url + next try: yield scrapy.Request(absolute_url, callback=self.parse_dir_contents) except: pass

2条回答

网友

1楼 · 编辑于 2024-09-26 18:07:04

在下一个获取数据的函数中，检查response==200。如果响应不等于200，则可以在特定限制下使用retry变量，使用另一个函数重试该url。如果超过了限制，请转到下一个产品url。你知道吗

try:
        if response.status == 404:
            self.append(self.bad_log_file, response.url)
            self.append(self.fourohfour, response.url)

        elif response.status == 200:
            self.append(self.ok_log_file, response.url)
        else:
            self.append(self.bad_log_file, response.url)

    except Exception, e:
        self.log('[eccezione] : %s' % e)
        pass

网友

2楼 · 编辑于 2024-09-26 18:07:04

如果为页面收集的项目数为0，则可以return。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

避免错页

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >