只是另一个刮网器。

jaws-scraper的Python项目详细描述


#导言 jaws是一个快速设计web刮板的系统。它包含一个为完全定制的scraper设计定制资源、解析器和输出的框架,以及一些常见用例的实现。

#家属 jaws是用python2编写的。最新版本的依赖项为: *机械化==0.2.5 *请求数==2.2.1

钳口也可以用简易安装或PIP安装。

#组件 jaws框架的核心组件可以在core.py中找到。

##刮刀 scraper类是将所有核心组件收集到一个对象中的集合,该对象可以很容易地实例化,并用于将所有数据收集到指定的输出中。

##资源 jawsresource类是描述接口的抽象类,通过该接口,页面被提供给解析器以供刮擦。资源可以像文件读取器一样简单,也可以像完整的web爬虫程序一样复杂。

##分析器 jawsparser类是一个抽象类,描述了scraper如何将来自资源的输入转换成一个python字典,其中包含要输入到输出的键和值。

##输出 jawsoutput类是一个抽象类,它描述了如何实际处理已刮除的数据。它可以描述一个文件输出格式(csv可能是最简单的)、一个数据库接口,或者任何你能想到的东西。

#今后的工作 *自动模式检测 *JSON分析器 *自述文件示例 *更好的代码文档 *python3兼容性

#许可证 除非另有规定或禁止,否则使用jaws分发的所有代码和内容都将在[gnu gplv3](http://www.gnu.org/licenses/gpl-3.0.html)下发布。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在Spring YAML配置中避开SpEL美元符号?   java Flyway脚本跳过第一个后的第二个Flyway脚本   SwingJava:像JTable一样过滤面板   Java JTabbedPane将订单提升到所选选项卡   java如何水平打印jframe或赋予它打印属性?   java My inflate不显示xml文件,原因是什么?   同步(Singleton.class)和同步(obj)之间的java差异   如何在linux操作系统中使用Java获取服务器时区信息   java抽象方法和重写?   java选择相关对象的前N个元素   java无法计算对象的数量   类L安卓/widget/ImageView中没有字段mMaxWidth   JavaHibernate4.3.0。最终和春季数据JPA 1.4.3。释放