比较HTML文件的一组相似度量。

html-similarit的Python项目详细描述


https://travis-ci.org/matiskay/html-similarity.svg?branch=master

这个包提供了一组函数来度量web页面之间的相似性。

安装

快捷方式:

pip install html-similarity

它是怎么工作的?

结构相似性

我们使用html标记的序列比较来计算结构相似性,而不是 树编辑距离,因为树编辑距离比序列比较慢。

序列比较的思想取自Page Compare

风格相似性

提取每个html文档的css类并计算这些类集合的jaccard相似性。 这个想法取自[1]

关节相似性(结构相似性和样式相似性)

关节相似性度量计算如下:

k * structural_similarity(document_1, document_2) + (1 - k) * style_similarity(document_1, document_2)

这是从[1]

值的间隔为0和1。

关节相似性建议

使用k=0.3可以获得更好的结果。样式相似性可以提供更多信息 关于相似性而不是风格。

开发

参见contribution.md文件

待办事项

  • []在pypi中添加有关包的信息
  • []添加文档
  • []添加示例

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java JPA:如何将持久性上下文与批量更新或删除的结果同步?   程序未激活时的java捕获击键   字符串到日期对象的java解析   LucenePDFDocument从pdfbox中消失了吗?   java解析ISO8601日期字符串到UTC时区的日期   java Android随机存取文件和文件系统缓冲区   java如何确保泛型类型的类型   mysql无法从Java中的数据库读取表中的行   spring用Java处理数百万条数据库记录   java AsyncTask正在引发InvocationTargetException   java这些集合允许null。为什么我不能添加空元素?   java无法从Android中的ftp服务器下载txt文件   Java堆栈跟踪未使用log4j2打印   java如何在Ubuntu 11.10上编译OpenJDK 7调试版本   java动态文件夹创建   在PHP和Java中使用socket   Java mxGraph中是否有可能限制单元格移动但不禁用它?   java如何找到org的路径。朱尼特?   方向更改时的java NullPointerException