分布式爬虫精简框架

zspider的Python项目详细描述


分布式爬虫精简框架

安装

pip install zspider

框架依赖

  • 由于使用了队列系统, 此爬虫框架依赖于ssdb

配置爬虫框架

  • 创建一个目录, 这个目录作为你的爬虫组织主路径
mkdir /home/myspider
mkdir /home/myspider/log
mkdir /home/myspider/spiders
  • 创建日志目录, 所有的爬虫的日志都将存放到这个目录
cd /home/myspider
mkdir log
  • 创建配置文件
touch /etc/zspider/config.ini
# win系统: "c:/zspider/config.ini"
# 其他系统: "/etc/zspider/config.ini"
# 可以使用环境变量 ZSPIDER_CONFIG 指定配置文件路径, 优先级最高
  • 修改配置文件为你的设置
[log]
;是否输出到流
;write_stream = true
;是否输出到文件
;write_file = true
;日志文件输出路径
;write_path = /home/myspider/log
;日志等级
;log_level = debug
;每隔几天就新增一个日志文件
;log_interval = 1
;保留几个旧的日志文件
;log_backupCount = 2

[seed_queue]
;种子队列查询后缀, 请不要更改这个配置, 除非你完全了解此爬虫框架的队列系统是如何运行的
;suffix = ['vip', 'd1', 'd2', 'd3', 'seed', 'error']

[public_constant]
;请求等待时间
;req_timeout = 20
;一次完整的任务逻辑中出错时, 等待一定时间后才能开始下一个任务
;spider_err_wait_time = 3
;种子队列为空后爬虫休眠时间
;empty_seed_wait_time = 120
;默认html编码方式
;default_html_encoding = 'utf-8'
;重试等待时间
;retry_wait_fixed = 0.5
;最大尝试次数
;max_attempt_count = 5

[ssdb]
;是否为集群
cluster = false
;主机地址
host = 你的ssdb服务主机
;主机端口
port = 你的ssdb服务端口

[proxy]
;use_proxy = false
;代理获取服务器ip和端口,如(xxx.xxx.xxx:1234)
;proxy_server =
;代理获取服务器路径,如(getproxy?format=json)
;proxy_path =
;无法获取代理地址时重试等待时间
;except_wait = 1
;代理模块包名
;proxy_pack_name = zspider.proxy_base
;代理模块名
;proxy_class_name = proxy_base

大功告成, 终于可以开始制作爬虫了

一个简单的爬虫

  • 在爬虫目录下创建一个文件 my_spider.py, 写入如下内容
fromzspider.spider_baseimportspider_baseclassmy_spider(spider_base):spider_name='my_spider'defstart_seed(self):yieldself.make_seed('https://pypi.org/project/zspider',self.parser_html,encoding='utf8')defparser_html(self,res):self.log.info(res.response_text)if__name__=='__main__':a=my_spider()a.yield_for_start_seed()a.run()
  • 运行它, 随后你可以在控制台看到打印出来的网页数据

这个爬虫做了什么

# 从爬虫框架zspider的spider_base模块中导入spider_base类fromzspider.spider_baseimportspider_base# 创建自己的爬虫类并继承spider_baseclassmy_spider(spider_base):#设置爬虫的名称为my_spider, 注意: 如果没有设置名称会报错spider_name='my_spider'#爬虫开始爬取网页时总有一个最开始的网址给它抓取, 这里提交最开始的网址给种子队列defstart_seed(self):#构建并提交一个url种子给种子队列, 这个种子包含了三种基本信息: 抓取的网址是'https://pypi.org/project/zspider', 用parser_html函数来解析网页, 这个网页的编码是utf8yieldself.make_seed('https://pypi.org/project/zspider',self.parser_html,encoding='utf8')#创建一个解析函数, 此函数接收一个参数, 此参数是_seed.Seed类的实例defparser_html(self,res):#将网页数据打印出来self.log.info(res.response_text)if__name__=='__main__':#爬虫实例化a=my_spider()#开始提交初始种子a.yield_for_start_seed()#开启爬虫a.run()

让爬虫不停的爬下去

    #在解析函数中
    def parser_html(self, res):
        urls = []
        #在此处写入自己的解析代码, 获取这个网页的一些url存入到urls中
        #遍历创建并提交url种子
        for url in urls:
            #去重检查, 只有第一次检查的数据才会返回True, 可以防止已经抓取的页面再次抓取导致死循环
            if self.dup_check(url):
                #这里没有写encoding, 爬虫框架会对每一个网页自动分析出合适的编码来解析网页, 就像浏览器一样
                yield self.make_seed(url, self.parser_html)

        self.save_result('你想要保存的数据, 它应该是一个dict')

spider_base内建参数说明

  • 所有的重复参数遵循就近优先原则
参数名数据类型默认值描述在make_seed中
为种子单独设置
spider_namestr必须设置
methodstrget默认请求方式
encodingstr默认页面编码解码模式, 设为None由爬虫框架自动判断
base_headersdict{}默认请求头, 允许用户添加或修改请求头, 忽略大小写, 爬虫框架会自动补全必须的请求头字段
time_outfloat20请求超时
auto_cookie_enableboolFalse是否自动管理cookie
check_html_funcfunction
str
页面解析预处理函数, 可能因为某些原因导致页面内容不是你预想的内容, 你可以在这里检查页面内容, 如果不是你想要的内容请返回False, 爬虫框架会更换代理后重新抓取此页面
retry_http_codelist[]如果页面状态码在这个列表中, 爬虫框架会重新抓取页面, 如404

spider_base方法说明

  • run_of_error_parser

仅使用解析错误error_parser队列进行抓取, 对调试爬虫很有帮助

  • run

运行爬虫

  • dup_check

去重检查, 可以有效避免重复抓取页面

参数名数据类型默认值描述
item必须参数, 这个参数在运算之前会调用str格式为字符串, 然后加密为md5_32位字符串, 只有第一次调用去重检查的数据才会返回True
collnamestrNone可选参数, 去重过滤器使用哪个文档保存被去重的数据, 如果设为None, 文档名默认为<爬虫名:dup>
  • clear_all_queue

清除队列, 慎用, 此函数会将爬虫的种子完全清除

参数名数据类型默认值描述
clear_parser_errorboolTrue是否清除解析错误的队列
clear_dupboolTrue是否清除去重过滤器文档
  • make_seed

此函数用户构建一个url种子, 它将和页面相关的一切信息保存到一个种子里面

参数名数据类型必须参数描述
urlstr要抓取的网址, 尽量把http或https写入, 这样抓取更准确, 允许为空
parser_funcfunction
str
表示页面抓取成功后调用哪个解析函数来解析它, 此函数接收一个参数, 请参考[可继承函数说明.parser_response]
check_html_funcfunction
str
页面抓取成功后调用哪个页面解析预处理函数, 此函数接收一个参数, 请参考[可继承函数说明.check_has_need_data]
metapython基本类型此参数用于保存用户想要传递到下一个解析函数的数据, 没错就和scrapy的meta一样
ua_typestr随机浏览器头类型('pc', 'ua_type', 'ios')
methodstr使用什么方式请求url, get还是post, 如果为空则使用内建的爬虫内建参数method, 还是空则默认为get
params参考requests的params
cookiesdictcookies, 要求爬虫内建参数cookie_enable为True
headersdict请求头, 参考爬虫内建参数base_headers
data参考requests的data
timeoutfloat页面请求等待时间, 超时则认为请求失败, 设为空或0, 爬虫框架会自动更改为20, 爬虫不应该一直等待一个网页
encodingstr页面编码解码方式, gbk还是utf8? 设为空则使用爬虫内建参数encoding, 还是空则由爬虫框架智能判断. 当页面是图片或是其他非文本页面时, 设为False关闭此种子的解码功能
proxiesdict主动为此种子设置代理
  • yield_for_start_seed

根据start_url函数提交初始种子

参数名数据类型默认值描述
force_yieldboolFalse是否强行提交初始种子, 如果为False, 在所有正常的种子抓取完毕之前忽略本次操作, 如果为True, 不管是否存在未抓取完毕的种子都立即提交初始种子

可继承函数说明

  • spider_init

爬虫初始化完成后会调用这个函数

  • start_seed

提交初始种子函数, yield_for_start_seed方法会调用此函数, 此函数允许提交多个初始种子

  • check_has_need_data

页面解析预处理函数, 要使用此函数必须在构建种子的时候用参数check_html_func指明, 或者在spider_base内建参数中设置默认值, 如果你返回了False, 那么爬虫框架会重新抓取这个页面. 如果你的代码出错了, 爬虫框架会将这个种子放入error队列

参数名数据类型描述
resseed.Seed此值包含了抓取成功的页面数据以及原始种子的信息, 参考seed.Seed参数说明. 如果url是空的, 那么这个参数是一个dict, 请参考原始代码seed.Seed.__attrs_dict__
  • parser_response

页面解析函数, 要使用此函数必须在构建种子的时候用参数parser_func指明, 你可以在此函数内正式解析页面, 然后使用yield提交种子, 如果你的代码出错了, 爬虫框架会将这个种子放入error_parser队列

参数名数据类型描述
resseed.Seed此值包含了抓取成功的页面数据以及原始种子的信息, 参考seed.Seed参数说明. 如果url是空的, 那么这个参数是一个dict, 请参考原始代码seed.Seed.__attrs_dict__

seed.Seed参数说明

  • 你构建种子时传入的所有参数都将会成为种子实例的属性, 当爬虫框架使用这个种子成功抓取页面后, 以下属性将可用
参数名数据类型描述
response请参考requests.Request
response_textstr网页源代码
response_etree请参考lxml.etree._Element
response_jsondict将网页源代码视为json格式并获取转换为dict的值
raw_databytes获取网页原始数据, 如果是图片或其他非文本网页时非常有用

seed.Seed方法说明

  • url_join

补全连接地址为完整的网页地址

参数名数据类型描述
linkstr一个连接地址, 它可能是不完整的, 使用此函数后会根据当前页面地址补全为完整的地址

代理接口说明

  • 创建一个类, 继承zspider.proxy_base模块中的proxy_base类
# my_proxy.pyfromzspider.proxy_baseimportproxy_baseclassmy_proxy_interface(proxy_base):defproxy_init(self):# 初始化后会调用这个函数passdefget_proxy(self):# 返回当前使用的代理, 字典{"http": "http://主机:端口", "https": "http://主机:端口"}passdefchange_proxy(self):# 要求切换代理地址pass# 然后修改配置文件中[proxy]表的proxy_pack_name为你的代理接口包名, 修改proxy_class_name为你的代理接口类名

更新日志

发布时间发布版本发布说明
19-03-281.0.2修复一个bug, 在未设置encoding的情况下页面分析会报错
19-03-281.0.1现在终结进程时,当前种子会放入error队列,种子不会丢失了
19-03-271.0.0发布正式版, 相对于旧版本(0.1.0)更改了大多数使用方法, 取消了mongo依赖:因为用户不一定要用mongo存数据, 缓存服务由redis改为了ssdb, 配置文件简化为最少需要[ssdb]表, 其他修改请自行阅读说明本文档

本项目仅供所有人学习交流使用, 禁止用于商业用途

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java Struts2从服务器重定向到外部URL   java无法捕获从一个方法到另一个方法的返回值   无法在Java中使用HtmlUnit从URL获取id为的元素   java如何从函数中添加片段?   java在一个页面中连接过多?   java如何在javafx中基于时间更改场景   java刷新活动,活动从片段开始   Android中的java Flandmark   初始化和运行springboot应用程序时出现java问题   java如何使用SD卡的直接访问权限   java无法将void转换为“classname”   java从外部向存在于EventDispath线程中的JFrame添加额外的面板?   带有servlet和线程的java Wildfly连接池   java在子类中获取WriteTo文件的内容   多线程从java中ScheduledThreadPoolExecutor>ExecutorService向下发送中断(kill 15或9)信号(Ctrl+C)   java为什么我可以使用类引用在类内部交换字段值,但不能交换引用本身   java PowerMock禁止构造函数,但设置私有最终字段   Javai使用gson解析嵌套的json数据,但返回null   访问者Java私有修饰符混淆