这是一个简单的蜘蛛包。

Zpider的Python项目详细描述


# Zpider

这里是Zpider的说明文档,您也可以访问这里 [Github-Zpider](https://github.com/pntehan/Zpider) 查看更多. ##Introduction Zpider是一个非常简单的爬虫库,底层使用的是pysocks,使用socket.http连接方式, 进行get和post请求。在请求方式上采用的发送报文的方法。内容上还有许多不足, 但是在爬取简单的小网站时,还是可以的,在爬取比较正规的网站时。 会因为报文头部的格式的问题无法正确的连接,后续的改进会在头部信息进行优化。 ##Config 配置文件里存放了部分的user-agent代理头供选择 ##GET 该方法包括了六个参数:url, user_agent, proxy_ip, timeout, retry, cookies<br> url:请求的连接地址<br> user_agent:默认False不使用代理头,default使用配置文件的代理头,或者自行填写<br> proxy_ip:默认False不使用代理ip,否则为”<ip>:<port>”格式传参<br> timeout:设置链接时长,默认3s<br> retry:重新连接次数,默认3次<br> cookies:设置cookie,格式为字典格式<br> 该方法返回一个字典键值为:status, header, text, etree, content<br> status:服务端响应状态<br> header:为服务端响应头部<br> text:解码之后的Html信息,字符串格式<br> etree:html的树型结构,支持xpath路径直接获取元素<br> content:未解码的数据,供于文件下载 ##POST POST方法和GET方式的形式大同小异<br> 该方法包括了六个参数:url, data, user_agent, proxy_ip, timeout, retry, cookies<br> url:请求的连接地址<br> data:发送报文的正文内容,格式为字典类型<br> user_agent:默认False不使用代理头,default使用配置文件的代理头,或者自行填写<br> proxy_ip:默认False不使用代理ip,否则为”<ip>:<port>”格式传参<br> timeout:设置链接时长,默认3s<br> retry:重新连接次数,默认3次<br> cookies:设置cookie,格式为字典格式<br> 该方法返回一个字典键值为:status, header, text, etree, content<br> status:服务端响应状态<br> header:为服务端响应头部<br> text:解码之后的Html信息,字符串格式<br> etree:html的树型结构,支持xpath路径直接获取元素<br> content:未解码的数据,供于文件下载

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何从IBM MQ的JMSException检测可恢复错误   java Lucene6。4.2:找不到类,尝试添加查询。   Java Pdf差异库   在Java中多线程处理我的线程   java将字符串传递给Uri。下载中的parse()   java在列表中查找原语位置   java JPA条件从另一个查询中选择   java中的强制转换和转换   java如何在没有上下文的情况下获取SOAP Web服务(Apache Axis 1.4)的调用客户端的IP地址   java Android IllegalBlockSizeException:解密中最后一个块未完成   java Jersey是否要自定义无效资源路径的错误处理?   如何将JavaCVS web项目转换为基于maven的web项目?   java如何检查通用列表是否与jUnit相等?   arraylist java。util。尝试使用迭代器时发生ConcurrentModificationException错误   使用springsecurity,jsp上的java${u csrf.token}始终为空   sql使用java从临时表中选择数据   spring验证中的java@Notnull和@Pattern无效   java如何使用jQuery将包含对象数组的对象数组传递给Spring MVC控制器?