比较HTML文件的一组相似度量。
html-similarit的Python项目详细描述
这个包提供了一组函数来度量web页面之间的相似性。
安装
快捷方式:
pip install html-similarity
它是怎么工作的?
风格相似性
提取每个html文档的css类并计算这些类集合的jaccard相似性。 这个想法取自[1]
关节相似性(结构相似性和样式相似性)
关节相似性度量计算如下:
k * structural_similarity(document_1, document_2) + (1 - k) * style_similarity(document_1, document_2)
这是从[1]
值的间隔为0和1。
关节相似性建议
使用k=0.3可以获得更好的结果。样式相似性可以提供更多信息 关于相似性而不是风格。
参考文献
开发
参见contribution.md文件
待办事项
- []在pypi中添加有关包的信息
- []添加文档
- []添加示例