爬虫

pycrawler-04的Python项目详细描述


皮尤4

这是一个网站统计/基准测试工具,帮助从网站抓取数据并生成YAML、HTML、JSON、CSV格式的报告。它有助于实现一个收集网站统计信息的命令行实用程序。在

此实用程序还将收集断开的链接列表、指向外部网站的链接列表以及网站上每个网页的加载时间。命令行实用程序将抓取整个网站以收集统计数据,并将其存储到本地数据库中。它还将提供一个选项来生成一个终端标准输出报告或一个HTML文件,用于收集统计信息。在

此实用程序包括以下模块:

  1. 网站爬虫程序:爬虫.py在
  2. 统计数据模型:存储.py在
  3. 报表生成器:代表.py在
  4. 命令行分析器:命令_分析器.py在

网站爬虫

它同时抓取网站中的每个页面,并处理所有错误和异常。在

统计数据模型

它将爬行统计数据以有组织的格式存储在数据库中。它提供了一个用于存储统计信息和提取统计信息的抽象。在

报表生成器

它有助于生成关于标准输出或文件的报告。可访问的格式是YAML(默认)、HTML。它还提供了一个添加新的报表生成器组件来生成JSON格式、CSV格式等报表的插件,而不会影响应用程序的其他组件。在

命令行分析器

它负责解析命令行参数并生成web响应数据格式和实用程序助手。在

通过运行命令'./website,它可以作为应用程序运行-统计.py'在windows/mac终端中使用命令行参数。 也可以使用软件包网站_stats将其作为一个模块加载到python程序中。在

要求:

pip安装pyyaml 生成yaml报告

包装

这个最终版本可以作为一个独立的可安装包使用,也可以作为一个模块加载并在另一个python应用程序中扩展的开发人员库。在

您只需在终端上运行以下命令: pip安装pycrawler

您可以使用以下行在模块中使用此库: 从PY_4导入网站_stats

在主菜单中包括以下内容: 如果name='main': 网站_统计。运行()

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
cassandra 2.0 SparkSQL不支持java。util。日期   java如何在Liferay中将值从输入发送到AutoLogin类   java创建列表并获取每个列表的最后一项   java堆栈被覆盖了   java Velocity#foreach,带XmlTool节点列表,带文本节点   java为什么不使用BitmapFactory。解码文件返回空值?   java如何将git存储url连接到本地存储库,以便每次都获得更新的代码?   java为什么Maven找不到这个jar   java JavaCV画布保持空白   java使用datePickerDialog当我选择日期时,月的值出乎意料   Solaris 9上的Java 1.6.0_45返回重新定位错误“symbol\u fmodf:未找到引用的符号”   java如何高效地返回部分文件?   JOptionPane的Java问题