请求队列报废

os-rq-scrap的Python项目详细描述


os rq碎片

Build StatuscodecovPyPI - Python VersionPyPI

一个用于Scrapyos-rq-pod和{a7}一起构建"broad crawls"系统的框架。在

如您所知,Scrapy是一个非常流行的python爬虫框架。它适合于“集中抓取”,从特定站点的几个url开始,获取html,提取并保存“结构化数据”,还可以用模式链接进行递归抓取。但对于规模大、时间长的爬行特别是“宽爬行”,瘙痒是无能的。基本上,你必须把整个爬行系统分解成几个子系统,高性能的全功能分布式抓取器、任务调度器、html提取器、链接数据库、数据存储、代理和许多辅助设备。当您的系统用于多租户时,它将更加复杂。在

osrqscrapy和os-rq-pod项目是构建“广泛爬行”系统的基本组件。其核心概念非常简单,os-rq-pod是多站点请求队列中具有httpapi的接收请求。OSRQscrapy是一个抓取器,它从OSRQPod获取请求,同时对多个站点进行爬网。os-rq-hub还可以用于连接多个pod和scray实例以同时工作。在

要求

  • Python 3.6+(pypy3.6+)
  • Scrapy2.0版

额外要求:

安装

pip install os-rq-scrapy

使用

命令行

rq-scrapy命令增强了基本的scrapy命令。配置了rqapi后,crawl子命令将在RQ模式下运行,即从RQ获取请求。在

单元测试

^{pr2}$

许可证

麻省理工学院授权。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JavaEclipseMars没有保存首选项   java梯度同步失败:原因:启动失败:   java如何从嵌套的JSON获取数据?   java如何判断可观察对象中的任何对象满足一个条件?   java将字符串转换为保持相同值的byte[]数组   java有没有办法绕过AuditingEntityListener为测试设置数据?   从/usr/share/java中解析linux JAR依赖关系   安卓 My java函数抛出nullpointerexception?   java Gradle使用正确版本的依赖项   JBoss和Java6中带注释的WebService中的web服务ClassCastException   java如何修复codename one中的简单逻辑错误?   java如何迭代矩阵的索引?   java如何在JPanel不可见时将其保存为图像?   java HashMap如何在Kotlin中实现MutableMap接口?   javascript如何在单击后加载特定片段?   EclipseJava为纳什均衡获取所有玩家/策略组合   JavaSpring:Web服务REST在JSON上产生双反斜杠   java为什么ServletContext#getRealPath(“/”)返回相对路径?   java当我的游戏应该重新启动时,我应该如何处理重置SurfaceView和线程?