请求队列报废
os-rq-scrap的Python项目详细描述
os rq碎片
一个用于Scrapy与os-rq-pod和{a7}一起构建"broad crawls"系统的框架。在
如您所知,Scrapy是一个非常流行的python爬虫框架。它适合于“集中抓取”,从特定站点的几个url开始,获取html,提取并保存“结构化数据”,还可以用模式链接进行递归抓取。但对于规模大、时间长的爬行特别是“宽爬行”,瘙痒是无能的。基本上,你必须把整个爬行系统分解成几个子系统,高性能的全功能分布式抓取器、任务调度器、html提取器、链接数据库、数据存储、代理和许多辅助设备。当您的系统用于多租户时,它将更加复杂。在
osrqscrapy和os-rq-pod项目是构建“广泛爬行”系统的基本组件。其核心概念非常简单,os-rq-pod是多站点请求队列中具有httpapi的接收请求。OSRQscrapy是一个抓取器,它从OSRQPod获取请求,同时对多个站点进行爬网。os-rq-hub还可以用于连接多个pod和scray实例以同时工作。在
要求
- Python 3.6+(pypy3.6+)
- Scrapy2.0版
额外要求:
- ujson,用于json性能
安装
pip install os-rq-scrapy
使用
命令行
rq-scrapy
命令增强了基本的scrapy
命令。配置了rqapi后,crawl
子命令将在RQ模式下运行,即从RQ获取请求。在
单元测试
^{pr2}$许可证
麻省理工学院授权。在
- 项目
标签: