Scrapy/Python请求优先级和并发请求

from scrapy.spiders import Spider, Request import scrapy import logging class MySpider(Spider): custom_settings = { 'DEPTH_STATS_VERBOSE': True, # 'CONCURRENT_REQUESTS': 1, 'CONCURRENT_REQUESTS_PER_DOMAIN': 1, 'CONCURRENT_REQUESTS_PER_IP': 1, 'AUTOTHROTTLE_TARGET_CONCURRENCY': 1, } name = 'toscrapecom' start_urls = ['http://books.toscrape.com/catalogue/page-1.html'] urls1 = ( 'http://books.toscrape.com/catalogue/page-{}.html'.format(i + 1) for i in range(5) ) urls2 = ( 'http://books.toscrape.com/catalogue/page-{}.html'.format(i + 1) for i in range(5,10) ) def parse(self, response): reqPriority = 20 for url in self.urls1: yield Request(url,priority=reqPriority,callback=self.next_page) logging.info("%s Priority %s URL %s", self.name, reqPriority, url) reqPriority = reqPriority - 1 def next_page(self,response): reqPriority = 40 for url in self.urls2: yield Request(url,priority=reqPriority) logging.info("%s Priority %s URL %s", self.name, reqPriority, url) reqPriority = reqPriority - 1

1条回答

网友

1楼 · 发布于 2024-09-30 18:13:18

请求优先级不能确保顺序。在

如果您有16个请求，每个请求具有不同的优先级，并且CONCURRENT_REQUESTS_PER_DOMAIN为{}，则几乎同时发送所有16个请求，并按照它们来自服务器的顺序进行解析，这不太可能与它们的优先级值相匹配。在

CONCURRENT_REQUESTS和{}实际上是组合工作的。CONCURRENT_REQUESTS_PER_DOMAIN默认为8，不定义CONCURRENT_REQUESTS_PER_DOMAIN等同于用8作为值来定义它。如果您在设置CONCURRENT_REQUESTS_PER_DOMAIN时看到不同的行为，那一定是因为您使用了8以外的值。在

CONCURRENT_REQUESTS_PER_IP，顾名思义，它与CONCURRENT_REQUESTS_PER_DOMAIN不同。如果已定义，CONCURRENT_REQUESTS_PER_DOMAIN的值将被忽略。在

相关问题更多 >

编程相关推荐

热门问题

热门文章