爬虫
pycrawler-04的Python项目详细描述
皮尤4
这是一个网站统计/基准测试工具,帮助从网站抓取数据并生成YAML、HTML、JSON、CSV格式的报告。它有助于实现一个收集网站统计信息的命令行实用程序。在
此实用程序还将收集断开的链接列表、指向外部网站的链接列表以及网站上每个网页的加载时间。命令行实用程序将抓取整个网站以收集统计数据,并将其存储到本地数据库中。它还将提供一个选项来生成一个终端标准输出报告或一个HTML文件,用于收集统计信息。在
此实用程序包括以下模块:
- 网站爬虫程序:爬虫.py在
- 统计数据模型:存储.py在
- 报表生成器:代表.py在
- 命令行分析器:命令_分析器.py在
网站爬虫
它同时抓取网站中的每个页面,并处理所有错误和异常。在
统计数据模型
它将爬行统计数据以有组织的格式存储在数据库中。它提供了一个用于存储统计信息和提取统计信息的抽象。在
报表生成器
它有助于生成关于标准输出或文件的报告。可访问的格式是YAML(默认)、HTML。它还提供了一个添加新的报表生成器组件来生成JSON格式、CSV格式等报表的插件,而不会影响应用程序的其他组件。在
命令行分析器
它负责解析命令行参数并生成web响应数据格式和实用程序助手。在
通过运行命令'./website,它可以作为应用程序运行-统计.py'在windows/mac终端中使用命令行参数。 也可以使用软件包网站_stats将其作为一个模块加载到python程序中。在
要求:
pip安装pyyaml 生成yaml报告
包装
这个最终版本可以作为一个独立的可安装包使用,也可以作为一个模块加载并在另一个python应用程序中扩展的开发人员库。在
您只需在终端上运行以下命令: pip安装pycrawler
您可以使用以下行在模块中使用此库: 从PY_4导入网站_stats
在主菜单中包括以下内容: 如果name='main': 网站_统计。运行()
- 项目
标签: