当存在多个重复链接时，如何提高爬行速度

def parse_data(self, response): item = URL() outlinks_extrated = [l.url for l in LinkExtractor(allow_domains=self.allowed_domains, deny_extensions = self.reg_deny, unique=False, restrict_xpaths=self.xpath_outlinks, tags=self.tags, deny = self.regex_denied).extract_links(response)] for url in outlinks_extrated: yield scrapy.Request(url, callback=self.parse_data) item['url'] = response.request.url yield item

1条回答

网友

1楼 · 发布于 2024-09-29 21:28:33

如果我理解正确，你的问题之一是重复链接。为什么不简单地对一组链接进行解析，并根据该集合检查要解析的所有链接？我的意思是：

links_visited = set()

def parse_data(self, response):
    item = URL() 
    outlinks_extrated = [l.url for l in LinkExtractor(allow_domains=self.allowed_domains, deny_extensions = self.reg_deny, unique=False, restrict_xpaths=self.xpath_outlinks, tags=self.tags, deny = self.regex_denied).extract_links(response)]
    for url in outlinks_extrated:
        if url not in links_visited:
            yield scrapy.Request(url, callback=self.parse_data)
            links_visited.add(url)
    item['url'] = response.request.url
    yield item

这样，您将确保不会重新访问URL

编辑：也许更好的解决方案是实例化scrapy.Request一次；通过这种方式，您可以使用dont_filter参数（有关详细信息，请检查https://docs.scrapy.org/en/latest/topics/request-response.html；您的请求将在默认情况下进行筛选，这样您就不会访问重复的URL）

相关问题更多 >

编程相关推荐

热门问题

热门文章