即使在scrapy中使用代理的旋转，也无法摆脱有问题的页面

class mySpider(scrapy.Spider): name = "myspider" custom_settings = { 'DOWNLOADER_MIDDLEWARES': { 'stackoverflow_spider.middlewares.ProxiesMiddleware': 100, } } def start_requests(self): with open("output_main.csv","r") as f: reader = csv.DictReader(f) for item in list(reader): lead_link = item['link'] yield scrapy.Request(lead_link,self.parse,meta={"lead_link":lead_link,"download_timeout":20}, dont_filter=True) def parse(self,response): address = response.css("h1#mainaddresstitle::text").get() print(response.meta['proxy'],address) if __name__ == "__main__": c = CrawlerProcess({ 'USER_AGENT':'Mozilla/5.0', 'LOG_LEVEL':'ERROR', }) c.crawl(mySpider) c.start()

1条回答

网友

1楼 · 发布于 2024-06-28 20:46:36

为scrapy应用程序实现会话安全代理需要添加额外的cookiejar元键，以将代理分配给request.meta的位置，如下所示：

....
yield scrapy.Request(url=link, meta = {"proxy":address, "cookiejar":address})

在这种情况下，scrapycookiesMiddleware将为每个代理创建额外的cookieSession

本answer中提到的scrapy代理实现的相关细节

相关问题更多 >

编程相关推荐

热门问题

热门文章