formasaurus使用机器学习告诉您html表单的类型及其字段
formasaurus的Python项目详细描述
formasaurus是一个python包,它告诉您html表单的类型 以及使用机器学习的领域。
它可以检测表单是否是登录、搜索、注册、密码恢复, “加入邮件列表”、联系人、订单或其他内容,哪个字段 是密码字段,是搜索查询等。
许可证是麻省理工学院的。
查看docs了解更多信息。
更改
0.8.1(2018-07-02)
- 不再支持scikit learn<;0.18;
- formasaurus不再使用python 3.3进行测试;
- 测试是固定的,以考虑上游的更改;启用了Python3.6构建。
0.8(2016-05-24)
- captchas;的更多注释数据
- formasaurus init用于训练和缓存模型的命令。
0.7.2(2016-04-18)
- 有pip install formasaurus[with-deps]的pip错误被解决了; 它现在应该是pip install formasaurus[with_deps]。
0.7.1(2016-03-03)
- 修复了readthedocs.org上的API文档
0.7(2016-03-03)
- 更多带注释的数据;
- 新的form_classes和field_classesformfieldclassifier属性;
- 在formasaurus.utils.download;
- 注释小部件中的错误修复;
0.6(2016-01-27)
- fields=False参数在formasaurus.extract_forms中受支持, formasaurus.classify,formasaurus.classify_proba函数和 在相关的FormFieldClassifier方法中。它可以避免预测 如果不需要表单字段类型。
- formasaurus.classifiers.instance()已重命名为 formasaurus.classifiers.get_instance()。
- 形式类型分类器的偏差不再是正则的。
0.5(2015-12-19)
这是一个主要的向后不兼容的版本。
- formasaurus现在可以检测字段类型,而不仅仅是表单类型;
- API已更改-请查看更新的文档;
- 检测到更多表单类型;
- 评估设置得到改进;
- 使用ipython小部件重写注释ui;
- 增加了更多的训练数据。
0.2(2015-08-10)
- python 3支持;
- 固定模型自动创建。
0.1(2015-07-09)
初次发布。