如何在Python Scrapy中设置代理

2条回答

网友

1楼 · 编辑于 2024-10-01 22:36:12

您必须设置http_proxy，https_proxy环境变量。请参考：proxy for scrapy

网友

2楼 · 编辑于 2024-10-01 22:36:12

我们可以使用以下方法：

request = Request(url="http://example.com")
request.meta['proxy'] = "host:port"
yield request

一个简单的实现如下：

^{pr2}$

如果要在初始状态下使用代理：

添加以下作为spider类字段

class MySpider(scrapy.Spider):
        name = "examplespider"
        allowed_domains = ["somewebsite.com"]
        start_urls = ['http://somewebsite.com/']
        custom_settings = {
        'HTTPPROXY_ENABLED': True
    }

然后使用start_requests()方法，如下所示：

    def start_requests(self):
        urls = ['example.com']
        for url in urls:
            proxy = 'some proxy'
            yield scrapy.Request(url=url, callback=self.parse, meta={'proxy': proxy})

    def parse(self, response):
        item = StatusCehckerItem()
        item['url'] = response.url
        return item

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何在Python Scrapy中设置代理

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >