Python os-rq-scrap包_程序模块 - PyPI

请求队列报废

os-rq-scrap的Python项目详细描述

os rq碎片

一个用于Scrapy与os-rq-pod和{a7}一起构建"broad crawls"系统的框架。在

如您所知，Scrapy是一个非常流行的python爬虫框架。它适合于“集中抓取”，从特定站点的几个url开始，获取html，提取并保存“结构化数据”，还可以用模式链接进行递归抓取。但对于规模大、时间长的爬行特别是“宽爬行”，瘙痒是无能的。基本上，你必须把整个爬行系统分解成几个子系统，高性能的全功能分布式抓取器、任务调度器、html提取器、链接数据库、数据存储、代理和许多辅助设备。当您的系统用于多租户时，它将更加复杂。在

osrqscrapy和os-rq-pod项目是构建“广泛爬行”系统的基本组件。其核心概念非常简单，os-rq-pod是多站点请求队列中具有httpapi的接收请求。OSRQscrapy是一个抓取器，它从OSRQPod获取请求，同时对多个站点进行爬网。os-rq-hub还可以用于连接多个pod和scray实例以同时工作。在

要求

Python 3.6+（pypy3.6+）
Scrapy2.0版

额外要求：

ujson，用于json性能

安装

pip install os-rq-scrapy

使用

命令行

rq-scrapy命令增强了基本的scrapy命令。配置了rqapi后，crawl子命令将在RQ模式下运行，即从RQ获取请求。在

单元测试

^{pr2}$

许可证

麻省理工学院授权。在

欢迎加入QQ群-->： 979659372

os-rq-scrapy 0.0.7

os-rq-scrap的Python项目详细描述

os rq碎片

要求

安装

使用

命令行

单元测试

许可证

推荐PyPI第三方库

pug-invest

odoo11-addon-resource-calendar-schedule-iteration

googledatastore

cumberbatch

resources

aiohttp-spyne

bottle-config

more.content-securit

marathonspawner

pypassport

python-omegle

pycnnum

turbodbc

bitmat

python-demo

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

os-rq-scrapy 0.0.7

os-rq-scrap的Python项目详细描述

os rq碎片

要求

安装

使用

命令行

单元测试

许可证

推荐PyPI第三方库

pug-invest

odoo11-addon-resource-calendar-schedule-iteration

googledatastore

cumberbatch

resources

aiohttp-spyne

bottle-config

more.content-securit

marathonspawner

pypassport

python-omegle

pycnnum

turbodbc

bitmat

python-demo

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签