一个多处理的web抓取和抓取框架。

MultiprocessingSpider的Python项目详细描述


多处理器处理器

[简体中文版]

说明

一个简单易用的网页抓取框架。在

建筑

Architecture

依赖关系

  • 请求

安装

pip install MultiprocessingSpider

基本用途

多处理spider

^{pr2}$

文件标识符

fromMultiprocessingSpider.spidersimportFileSpiderfromMultiprocessingSpider.packagesimportFilePackageclassMySpider(FileSpider):start_urls=['https://www.a.com/page1']stream=Truebuffer_size=1024overwrite=Falsedefrouter(self,url):returnself.parsedefparse(self,response):# Parsing task or new page from "response"...# Yield a file packageyieldFilePackage('https://www.a.com/file.png','file.png')...# Yield a new url or a url listyield'https://www.a.com/page2'...yield['https://www.a.com/page3','https://www.a.com/page4']if__name__=='__main__':s=MySpider()# Add a urls.add_url('https://www.a.com/page5')# Start the spiders.start()# Block current processs.join()

文件下载器

fromMultiprocessingSpider.spidersimportFileDownloaderif__name__=='__main__':d=FileDownloader()# Start the downloaderd.start()# Add a filed.add_file('https://www.a.com/file.png','file.png')# Block current processd.join()

更多示例→{a2}

许可证

GPLv3.0
这是一个免费的图书馆,欢迎任何人修改:)

发行说明

1.1.2版

重构

  • 从“FileDownloader”中删除属性“name”。在
  • 完成“M”中的“UserAgentGenerator”类ultiprocessingSpider.Utils". 在
  • 继续优化每个属性的setter方法。如果值无效,将引发异常。““睡眠时间”现在可以设置为0。在
  • 改变子进程的休眠策略,子进程在接收到任务包后将进入休眠状态,以防止多个请求同时发送。在

1.1.1版

错误修复

  • 修复“起始网址”失效。在

1.1.0版

功能

  • 为“FileSpider”添加覆盖选项。在
  • 添加路由系统。重写“router”方法后,可以在解析方法中生成单个url或url列表。在

错误修复

  • 修复重试消息显示错误。在

重构

  • 优化setter方法。现在您可以执行以下操作:蜘蛛。睡眠时间=“5”。在
  • 当“状态代码”不在200到300之间时,不会重新发送请求。在
a)多处理spider
  • 将属性“handled_url_table”重命名为“handled_url”。在
  • 删除方法“parse”,添加“example_parse_method”。在
  • “web头”中的“用户代理”现在是随机生成的。在
  • 更改url_表的解析顺序,当前规则:“FIFP”(先入先解析)。在
b)文件下载器
  • 删除“添加文件”方法。在

1.0.0版

  • 第一个版本。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何将cassandra中的行数据转换为与列相关的嵌套json   java如何使用jcr XPath在jcr:content/@jcr:data中搜索?   java在使用openCV进行安卓开发时如何利用手机的广角镜头   java解析扩展了接口,结束了一个潜在的无限循环   位置服务的@Override方法中存在java Android应用程序错误   java本地线程的用途和需求是什么   具有左右子访问的java节点树遍历   java验证JsonWebToken签名   JUL日志处理程序中的java日志记录   嵌入式Java读取给定时间段的串行数据。   java有没有办法从多个URL获取多个图像?   java线程通过等待intent阻止自己发送intent   java Spring MVC解析多部分内容请求   java JPA/Hibernate静态元模型属性未填充NullPointerException   java格式错误的字符(需要引号,得到I)~正在处理   java为什么PrintWriter对象抛出FileNotFoundException?   java Neo4j未正确保存标签   java IE不加载图像