Levenshtein距离如何用简体中文计算?

2024-09-26 18:03:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两个问题:

    query1:你好世界
    query2:你好

当我使用python库Levenshtein运行此代码时:

^{pr2}$

我得到的输出是12。 现在的问题是,值12是如何导出的?在

因为就笔画的差异而言,绝对不止12个。在


Tags: 代码世界差异levenshtein笔画pr2query1query2
1条回答
网友
1楼 · 发布于 2024-09-26 18:03:08

根据其documentation,它支持unicode:

It supports both normal and Unicode strings, but can't mix them, all arguments to a function (method) have to be of the same type (or its subclasses).

但您需要确保中文字符是unicode格式:

In [1]: from Levenshtein import distance, hamming, median

In [2]: query1 = '你好世界'

In [3]: query2 = '你好'

In [4]: print distance(query1,query2)
6

In [5]: print distance(query1.decode('utf8'),query2.decode('utf8'))
2

相关问题 更多 >

    热门问题