废料硒的防锁机构
antiblock-scrapy-selenium的Python项目详细描述
阻滞剂刮硒
这个模块是{a1}项目的扩展。在
{str1}$scrapy selenium主要用于需要处理javascript来呈现内容的网站。另一方面,在原始设计中没有发现藏品的基本防锁机制。在Scrapy selenium已经使用{a2}进行了扩展,它允许通过Tor旋转ip、定义请求之间的延迟(随机或固定)、旋转用户代理和持久化/加载cookie。在
{str 1}$Obs.:此项目中与远程selenium不兼容。
特点
使用{str 1}$scrapy selenium抗阻塞硒即:- 允许您将javascript所需的网站上传到Scrapy,以及{str1}$Scrapy selenium的其他特性
- 通过以下方式避免收藏堵塞:
-
通过Tor旋转IPs
- 用户代理轮换
- 请求之间的随机或固定延迟
- 持久/加载Cookie
安装
更简单的方法:
{pr 1}设置
遵循{a3}中的Tor配置步骤。在支持的浏览器有:
- 铬
- 火狐
使用
基本
- 中间件激活: {pr2} 在
- 添加要使用的浏览器、驱动程序的可执行位置和要传递的参数: {pr 3} 在 (可选)设置浏览器可执行文件的位置: {pr 4} 在
- 使用{cd1>代替Scrapy的
,如下所示: {pr 5} -
蜘蛛示例:
{pr}$
在
使用防抱死机构
在遵循基本的使用步骤之后,按照下面的伪装机制进行设置。在
通过Tor旋转IPs
参数:
:定义IP将更改的请求数 :定义何时可以重用IP
{pr 7} 用户参数:
要轮换的用户代理列表。在
当要更改用户代理时
{pr 8}
请求之间的延迟
允许请求之间的随机或固定延迟。在
参数:
-
请求之间的时间(秒)。接受最多两位小数
如果请求之间的延迟是固定的(将该参数定义为{cd14>或在{cd15>和 cd17} 之间随机选择)
Cookies的管理
参数:
:如果驱动程序关闭他们的cookie,它们将被保存
如果您启动上次会话中保存的Cookie将被重新加载
- 如果
您需要在 中指定cookies的域 :保存cookies的位置。{cd25> - {cd26>要加载的cookies列表(默认值[]-空列表)
- 如果传递了非空列表,则需要在
中指定cookies的域
- 如果传递了非空列表,则需要在
cookies有效的字段。在
持久化cookies:
{pr 10} 示例:加载Cookie: {pr 11}- 项目
标签: