Python MultiprocessingSpider包_程序模块 - PyPI

一个多处理的web抓取和抓取框架。

MultiprocessingSpider的Python项目详细描述

多处理器处理器

[简体中文版]

说明

一个简单易用的网页抓取框架。在

建筑

Architecture

依赖关系

请求

安装

pip install MultiprocessingSpider

基本用途

多处理spider

^{pr2}$

文件标识符

fromMultiprocessingSpider.spidersimportFileSpiderfromMultiprocessingSpider.packagesimportFilePackageclassMySpider(FileSpider):start_urls=['https://www.a.com/page1']stream=Truebuffer_size=1024overwrite=Falsedefrouter(self,url):returnself.parsedefparse(self,response):# Parsing task or new page from "response"...# Yield a file packageyieldFilePackage('https://www.a.com/file.png','file.png')...# Yield a new url or a url listyield'https://www.a.com/page2'...yield['https://www.a.com/page3','https://www.a.com/page4']if__name__=='__main__':s=MySpider()# Add a urls.add_url('https://www.a.com/page5')# Start the spiders.start()# Block current processs.join()

文件下载器

fromMultiprocessingSpider.spidersimportFileDownloaderif__name__=='__main__':d=FileDownloader()# Start the downloaderd.start()# Add a filed.add_file('https://www.a.com/file.png','file.png')# Block current processd.join()

更多示例→{a2}

许可证

GPLv3.0
这是一个免费的图书馆，欢迎任何人修改：）

发行说明

1.1.2版

重构

从“FileDownloader”中删除属性“name”。在
完成“M”中的“UserAgentGenerator”类ultiprocessingSpider.Utils". 在
继续优化每个属性的setter方法。如果值无效，将引发异常。““睡眠时间”现在可以设置为0。在
改变子进程的休眠策略，子进程在接收到任务包后将进入休眠状态，以防止多个请求同时发送。在

1.1.1版

错误修复

修复“起始网址”失效。在

1.1.0版

功能

为“FileSpider”添加覆盖选项。在
添加路由系统。重写“router”方法后，可以在解析方法中生成单个url或url列表。在

错误修复

修复重试消息显示错误。在

重构

优化setter方法。现在您可以执行以下操作：蜘蛛。睡眠时间=“5”。在
当“状态代码”不在200到300之间时，不会重新发送请求。在

a）多处理spider

将属性“handled_url_table”重命名为“handled_url”。在
删除方法“parse”，添加“example_parse_method”。在
“web头”中的“用户代理”现在是随机生成的。在
更改url_表的解析顺序，当前规则：“FIFP”（先入先解析）。在

b）文件下载器

删除“添加文件”方法。在

1.0.0版

第一个版本。在

欢迎加入QQ群-->： 979659372

MultiprocessingSpider 1.1.2

MultiprocessingSpider的Python项目详细描述

多处理器处理器

说明

建筑

依赖关系

安装

基本用途

多处理spider

文件标识符

文件下载器

许可证

发行说明

1.1.2版

重构

1.1.1版

错误修复

1.1.0版

功能

错误修复

重构

a）多处理spider

b）文件下载器

1.0.0版

推荐PyPI第三方库

filename-sanitizer

pymean

rure

adsense_scraper

openflexure-microscope

cTPnet

rlog-generator

taxi-simulator

hayes

collective.slideshow

humilis-secrets-vault

craigslist-monitor

Chandere

django-sponsors

seesaw

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签