网络蜘蛛检索链接
arsespyder的Python项目详细描述
1-简介
----
程序“arseSpyder”是一个网络爬虫程序,它可以对URL进行爬网,并递归地检查该Web中包含的链接,以便对于提供的URL,爬虫程序下载其上包含的<;a href=“http://whatever”>;whatever<;/a>;类型的链接。
对于每个参数,重复操作,直到达到参数提供的搜索级别。如果未提供,则默认情况下,爬网深度级别为3。
爬行
BR/>可选参数:
-H,帮助显示该帮助消息并退出
-V,即版本显示程序的版本号和退出
-N个数的OFL级别,级别数为-BR/>爬行深度
BR/>注释1 -唯一的强制参数是URL爬行。
注释2-如果未提供级别数,则默认情况下,级别数为3。
3-输出格式
----
ArseSpyder Web爬网程序将这些链接转储到指定的深度爬网级别,下一步的格式是:
$./arsespyder.py-n3 http://arsespyder.dyndns.org/index.html
*http://arsespyder.dyndns.org/test/l1-p1.html
*http://arsespyder.dyndns.org/test/l1-p2.html
*http://arsespyder.dyndns.org/test/l1-p3.html
**http://arsespyder.dyndns.org/test/l2-1-p1.html
*http://arsespyder.yder.dyndns.py-n3 http://arsespyder.dyndsyder.dyndns.dynd/>**http://arsespyder.dyndns.org/test/l2-p1-p1-p2.html
**http://arsespyder.dyndns.org/test/l2-p2-p2-p1.html
**http://arsespyder.dyndns.org/test/l2-p2-p2-p2.html
**http://arsespyder.dyndns.org/l3-p1-p1-p1-p1-p1.html
**http://esspyder.dyndns.org/l3/l3-p1-p1-p1-p2-p2.html
>>>**http://http://http://esperspyder.dyndns***http://arsespyder.dyndns.org/l3_p1_p1_p3.html
***http://arsespyder.dyndns.org/l3庘p1庘p2庘p1.html
**http://arsespyder.dyndns.org/l3庘p1庘p2庘p2.html
**http://arsespyder.dyndns.org/l3庘p1庘p2庘p3.html
是1级链接(在HTML代码URL指定的参数中存在)
4代码文档
--------------BR/>代码文档包含在“DOC”文件夹下。主.html文件是pyarsespyder.html:
$tree doc/
doc/
——pyarsespyder.geturl.html
——pyarsespyder.html
----
程序“arseSpyder”是一个网络爬虫程序,它可以对URL进行爬网,并递归地检查该Web中包含的链接,以便对于提供的URL,爬虫程序下载其上包含的<;a href=“http://whatever”>;whatever<;/a>;类型的链接。
对于每个参数,重复操作,直到达到参数提供的搜索级别。如果未提供,则默认情况下,爬网深度级别为3。
爬行
BR/>可选参数:
-H,帮助显示该帮助消息并退出
-V,即版本显示程序的版本号和退出
-N个数的OFL级别,级别数为-BR/>爬行深度
BR/>注释1 -唯一的强制参数是URL爬行。
注释2-如果未提供级别数,则默认情况下,级别数为3。
3-输出格式
----
ArseSpyder Web爬网程序将这些链接转储到指定的深度爬网级别,下一步的格式是:
$./arsespyder.py-n3 http://arsespyder.dyndns.org/index.html
*http://arsespyder.dyndns.org/test/l1-p1.html
*http://arsespyder.dyndns.org/test/l1-p2.html
*http://arsespyder.dyndns.org/test/l1-p3.html
**http://arsespyder.dyndns.org/test/l2-1-p1.html
*http://arsespyder.yder.dyndns.py-n3 http://arsespyder.dyndsyder.dyndns.dynd/>**http://arsespyder.dyndns.org/test/l2-p1-p1-p2.html
**http://arsespyder.dyndns.org/test/l2-p2-p2-p1.html
**http://arsespyder.dyndns.org/test/l2-p2-p2-p2.html
**http://arsespyder.dyndns.org/l3-p1-p1-p1-p1-p1.html
**http://esspyder.dyndns.org/l3/l3-p1-p1-p1-p2-p2.html
>>>**http://http://http://esperspyder.dyndns***http://arsespyder.dyndns.org/l3_p1_p1_p3.html
***http://arsespyder.dyndns.org/l3庘p1庘p2庘p1.html
**http://arsespyder.dyndns.org/l3庘p1庘p2庘p2.html
**http://arsespyder.dyndns.org/l3庘p1庘p2庘p3.html
是1级链接(在HTML代码URL指定的参数中存在)
4代码文档
--------------BR/>代码文档包含在“DOC”文件夹下。主.html文件是pyarsespyder.html:
$tree doc/
doc/
——pyarsespyder.geturl.html
——pyarsespyder.html