只是另一个刮网器。
jaws-scraper的Python项目详细描述
#导言 jaws是一个快速设计web刮板的系统。它包含一个为完全定制的scraper设计定制资源、解析器和输出的框架,以及一些常见用例的实现。
#家属 jaws是用python2编写的。最新版本的依赖项为: *机械化==0.2.5 *请求数==2.2.1
钳口也可以用简易安装或PIP安装。
#组件 jaws框架的核心组件可以在core.py中找到。
##刮刀 scraper类是将所有核心组件收集到一个对象中的集合,该对象可以很容易地实例化,并用于将所有数据收集到指定的输出中。
##资源 jawsresource类是描述接口的抽象类,通过该接口,页面被提供给解析器以供刮擦。资源可以像文件读取器一样简单,也可以像完整的web爬虫程序一样复杂。
##分析器 jawsparser类是一个抽象类,描述了scraper如何将来自资源的输入转换成一个python字典,其中包含要输入到输出的键和值。
##输出 jawsoutput类是一个抽象类,它描述了如何实际处理已刮除的数据。它可以描述一个文件输出格式(csv可能是最简单的)、一个数据库接口,或者任何你能想到的东西。
#今后的工作 *自动模式检测 *JSON分析器 *自述文件示例 *更好的代码文档 *python3兼容性
#许可证 除非另有规定或禁止,否则使用jaws分发的所有代码和内容都将在[gnu gplv3](http://www.gnu.org/licenses/gpl-3.0.html)下发布。