帕图是一只小蜘蛛

patu的Python项目详细描述


帕图

一个小蜘蛛,用于检查站点的404和500s。patu需要httplib2和lxml:

pip install -U httplib2 lxml

快速使用

查看可用选项:

patu.py –help

使用5个工作人员创建整个站点的蜘蛛网,只显示错误:

patu.py –spiders=5 www.example.com

对于spider,在第一级链接之后停止:

patu.py –depth=1 www.example.com

要获取网站上每个链接页面的列表:

patu.py –generate www.example.com > urls.txt

使用一个文件代替对url的搜索,并显示所有响应:

patu.py –input=urls.txt –verbose www.example.com

URL文件格式

<;code>;–generate生成的输出格式如下:

FIRST_URL<TAB>None LINK1<TAB>REFERER LINK2<TAB>REFERER

<;code>;–input<;/code>;可以采用该格式的文件,或者每行一个url,而不使用referer。<;code>;–input=-<;/code>;从stdin读取。

测试

帕图用鼻子做测试。安装机头并进行测试:

pip install -U nose nosetests

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在reducer中迭代自定义可写组件时出现java问题   属性文件中属性的java命名约定   任务链关闭的java Executor服务   java从Eclipse中的字段生成多个构造函数   java通过继承读取Json   java在不知道密钥的情况下解析json   java camel cxf如何在电子邮件中发送soap请求响应   java程序似乎跳过了if语句的一部分,在移回正确位置之前先移到else语句   测试简单的Java加密/解密inputFileName不存在   java从Jenkins REST API获取所有作业的所有构建的构建细节   java基本包装器和静态“类型”类对象   在WebSphere8.5上部署java代码   java对象相等(对象引用“=”)   java MongoDB整型字段到枚举的转换   每次我重新导入gradle时,IntelliJ都会不断重置Java设置   类型使用键或索引从Java中的数据类型检索值   在Java的列表接口中需要listIterator()和iterator()是什么?