一个快速的网络爬虫,满足您的所有需要
pywebcrawler的Python项目详细描述
Python网络爬虫
用Python编写的网络爬虫程序,用于对给定网站进行爬网。在
特色!在
- 更快
- 可以指定用于爬网给定网站的线程数
- 能够使用代理绕过IP限制
- 清除已爬网的所有URL的摘要。查看爬网.txt文件以查看所有已爬网链接的完整列表
- 能够指定每个HTTP请求之间的延迟
- 停止并继续爬虫,只要你需要
- 收集所有的网址及其标题到一个csv,以防你计划创建一个搜索引擎
- 在整个网站中搜索特定文本
- 清楚统计有多少链接以文件、超时错误、连接错误结束
- 爬到你需要的时候。您可以指定爬网程序应爬网到的级别。在
- 爬网时将使用随机浏览器用户代理。在
即将推出的功能!在
- 收集AWS桶、电子邮件、电话号码等
- 下载所有图像
依赖性
此工具使用许多开源项目来正常工作:
- BeautifulSoup-解析每个请求的HTML响应的解析器。在
- Requests-对url发出GET请求。在
用法
如果您想查看受支持功能的列表,只需运行
指定仅爬网3个级别
在整个网站中搜索特定文本
将所有链接及其标题收集到CSV文件中。爬网完成后,将创建一个包含链接及其标题的CSV文件
使用代理对站点进行爬网。
- 项目
标签: