对每个请求使用假用户代理提供的随机用户代理
scrapy-fake-useragent的Python项目详细描述
垃圾假冒用户代理
基于 fake-useragent。它 基于usage statistics提取User-Agent字符串 来自real world database。
安装
最简单的方法是通过pip安装
pip install scrapy-fake-useragent
配置
关闭内置的UserAgentMiddleware并添加 RandomUserAgentMiddleware。
在scrapy中>;=1.0:
DOWNLOADER_MIDDLEWARES={'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware':400,}
在scrapy<;1.0中:
DOWNLOADER_MIDDLEWARES={'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':None,'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware':400,}
配置用户代理类型
有一个配置参数RANDOM_UA_TYPE默认为random,它被逐字传递给伪用户代理。因此,可以将其设置为firefox,以仅模拟firefox浏览器。不过,最有用的方法是使用desktop或mobile值分别发送桌面或移动字符串。
使用 FLASY代理 < EH3>
要与随机代理(如scrapy-proxies)的中间件一起使用,您需要:
- 将RANDOM_UA_PER_PROXY设置为true以允许每个代理进行切换
- 将RandomUserAgentMiddleware的优先级设置为大于scrapy-proxies,以便在句柄ua之前设置代理
配置假用户代理回退
有一个配置参数FAKEUSERAGENT_FALLBACK默认为 None。可以将其设置为字符串值,例如Mozilla或 Your favorite browser,此配置可以完全禁用任何 讨厌的例外。