一个快速的网络爬虫,满足您的所有需要

pywebcrawler的Python项目详细描述


Python网络爬虫Build Status

用Python编写的网络爬虫程序,用于对给定网站进行爬网。在

特色!在

  • 更快
  • 可以指定用于爬网给定网站的线程数
  • 能够使用代理绕过IP限制
  • 清除已爬网的所有URL的摘要。查看爬网.txt文件以查看所有已爬网链接的完整列表
  • 能够指定每个HTTP请求之间的延迟
  • 停止并继续爬虫,只要你需要
  • 收集所有的网址及其标题到一个csv,以防你计划创建一个搜索引擎
  • 在整个网站中搜索特定文本
  • 清楚统计有多少链接以文件、超时错误、连接错误结束
  • 爬到你需要的时候。您可以指定爬网程序应爬网到的级别。在
  • 爬网时将使用随机浏览器用户代理。在

即将推出的功能!在

  • 收集AWS桶、电子邮件、电话号码等
  • 下载所有图像

依赖性

此工具使用许多开源项目来正常工作:

用法

如果您想查看受支持功能的列表,只需运行 Usage Demo

指定仅爬网3个级别

Depth Crawl

在整个网站中搜索特定文本

Text Search

将所有链接及其标题收集到CSV文件中。爬网完成后,将创建一个包含链接及其标题的CSV文件

Gather Titles

使用代理对站点进行爬网。

Use Proxies

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
JFrame中的Java多线程   java Servlet异常映射   java无法从输出流读取   swing Java带来的小程序GUI问题   java什么原因导致错误“'void'类型此处不允许”以及如何修复它?   Java选择器select(长)与selectNow的区别   java自定义arraylist<mygames>获得不同   java Icepdf注释让页面消失   java反向整数数组   java I在生成同步“无法解析配置的所有依赖项”时遇到此错误:app:debugRuntimeClasspath   多个虚拟机上的java线程访问单个DB实例上的表,有时会导致性能低下和异常   swing更改Java中的默认按钮,使其看起来“更好”   java慢速MQ主题订阅。并行化不能提高性能   java运行Boggle Solver需要一个多小时。我的代码怎么了?   数据库中的java循环与应用程序中的java循环   正则表达式匹配${123…456}并在Java中提取2个数字?   java如何制作我们软件的试用版   Java内存参数计算   从另一个类调用方法时出现java问题