我有一些垃圾代码,我想开始使用proxymesh。proxymesh documentation神秘地说:
For the scrapy crawling framework, you must set the http_proxy environment variable [...] then activate the HttpProxyMiddleware.
我了解如何设置http_proxy
环境变量,但如何“激活HttpProxyMiddleware”在文档中并不十分明显。我认为我需要在我的Scrapy项目中添加以下内容:
DOWNLOADER_MIDDLEWARES = {
'myproject.middleware.ProxyMeshMiddleware': 100,
}
但是我想我还需要添加一些实际的中间件代码,大概是在middleware.py
文件中?在
我找到了this gist,所以我想我可以复制并粘贴到middleware.py
中,但我不确定它是否准确。它似乎使用了与proxymesh文档中推荐的不同的环境变量。在
您所引用的Gist从OS环境变量读取ProxyMesh设置,否则它只是对基本Scrapy HttpProxyMiddleware的代码稍作修改,应该可以正常工作。在
您还可以看看我的Proxymesh中间件https://github.com/mizhgun/scrapy-proxymesh的非常简单的实现,它支持代理循环(如果您有多个端点的Proxymesh计划)和可定制的超时。在
相关问题 更多 >
编程相关推荐