废料硒的防锁机构

antiblock-scrapy-selenium的Python项目详细描述


阻滞剂

刮硒

这个模块是{a1}项目的扩展。在

{str1}$scrapy selenium主要用于需要处理javascript来呈现内容的网站。另一方面,在原始设计中没有发现藏品的基本防锁机制。在

Scrapy selenium已经使用{a2}进行了扩展,它允许通过Tor旋转ip、定义请求之间的延迟(随机或固定)、旋转用户代理和持久化/加载cookie。在

{str 1}$Obs.:此项目中与远程selenium不兼容。

特点

使用{str 1}$scrapy selenium抗阻塞硒即:
  • 允许您将javascript所需的网站上传到Scrapy,以及{str1}$Scrapy selenium的其他特性
  • 通过以下方式避免收藏堵塞:
      通过Tor旋转IPs
    • 用户代理轮换
    • 请求之间的随机或固定延迟
    • 持久/加载Cookie

安装

更简单的方法:

{pr 1}

设置

遵循{a3}中的Tor配置步骤。在

支持的浏览器有:

  • 火狐

使用

基本

  • 中间件激活: {pr2} 在
  • 添加要使用的浏览器、驱动程序的可执行位置和要传递的参数: {pr 3} 在
  • (可选)设置浏览器可执行文件的位置: {pr 4} 在
  • 使用{cd1>代替Scrapy的,如下所示: {pr 5}
      蜘蛛示例: {pr}$ 在
  • 使用{cd3>通常可用的{a4}的其他功能。在
{bq 1}

使用防抱死机构

在遵循基本的使用步骤之后,按照下面的伪装机制进行设置。在

通过Tor旋转IPs

参数:

  • :定义IP将更改的请求数
  • :定义何时可以重用IP
示例:

{pr 7} 用户参数:

  • 要轮换的用户代理列表。在
  • 当要更改用户代理时
示例:

{pr 8}

请求之间的延迟

允许请求之间的随机或固定延迟。在

参数:

    请求之间的时间(秒)。接受最多两位小数
  • 如果请求之间的延迟是固定的(将该参数定义为{cd14>或在{cd15>和cd17}之间随机选择)
{pr 9}

Cookies的管理

参数:

  • :如果驱动程序关闭他们的cookie,它们将被保存
  • 如果您启动上次会话中保存的Cookie将被重新加载
    • 如果您需要在中指定cookies的域
  • :保存cookies的位置。{cd25>
  • {cd26>要加载的cookies列表(默认值[]-空列表)
    • 如果传递了非空列表,则需要在中指定cookies的域
  • cookies有效的字段。在
示例

持久化cookies:

{pr 10} 示例:加载Cookie:

{pr 11}

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何更新映射中的值?   从AmazonS3下载java文件   java BufferedWriter write()方法不工作   java如何在资源包中使用JSF标记/如何在资源包中重写URL?   变量的java“var”命名   java lambda表达式是否有与之关联的on对象,以及为什么“this”不引用lambda表达式的对象?   java XX:OmitStackTraceInFastThrow似乎什么都没做   java使用LWJGL创建隐藏画布   java如何在Spring配置文件中配置Hibernate   Hadoop CDH5中的java垃圾收集持续时间   您如何使用java进行日程安排?   toString方法的java洞察   谷歌地图上的java更新标记   java在检查类型后将父对象作为子对象传递   java Hibernate save单独成功,但如果运行时几乎没有其他测试,则会失败   浏览器历史系统中循环的java乘法   Java中的图像映射   json Java使用流API解析字符串