有没有其他方法可以找到低开销和高精度的记录之间的相似性度量（除了JaroWinkler算法）？

1条回答

网友

1楼 · 发布于 2024-10-02 20:30:40

Jaro-Winkler距离，表示两个字符串之间的相似性分数。Jaro度量是每个文件中匹配字符和转置字符百分比的加权和。Winkler增加了匹配初始字符的度量。你知道吗

最初的实现是基于Jaro-Winkler相似性算法文章的，该文章可以在Wikipedia上找到。原始实现的这个Python版本基于Apache StringUtils library。你知道吗

Unittest类似于StringUtils库中的内容，用于验证实现。你知道吗

>>> from pyjarowinkler import distance
>>> # Scaling is 0.1 by default
>>> print distance.get_jaro_distance("hello", "haloa", winkler=True, scaling=0.1)
0.76
>>> print distance.get_jaro_distance("hello", "haloa", winkler=False, scaling=0.1)
0.733333333333

从this link获取更多详细信息

我希望这能对你的问题有所帮助。你知道吗

编程相关推荐

java Maven:无法找到或加载主类
java如何解决JRE旧版本中的enhancedforloop错误？
java连续internet签入后台Android
java在Eclipse的包资源管理器中，除了文件名之外，>（大于括号）意味着什么？
不注册为服务的java查询eureka
多线程对于可以在java中暂停和取消暂停的线程化应用程序，有一个好的解决方案吗？
java是收集器中的错误报告。toMap（）坏了吗？
使用java命令在mysql中恢复数据库
在服务器上运行程序的java
如何使用java在excel中读取和写入值？

相关问题更多 >

编程相关推荐

热门问题

热门文章

有没有其他方法可以找到低开销和高精度的记录之间的相似性度量（除了JaroWinkler算法）？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >