基于pdis的Python字符串距离矩阵

import numpy as np from scipy.spatial.distance import pdist from Levenshtein import jaro_winkler fname = np.array(['Bob','Carl','Kristen','Calr', 'Doug']).reshape(-1,1) dm = pdist(fname, jaro_winkler) dm = squareform(dm)

3条回答

网友

1楼 · 编辑于 2024-10-02 16:20:43

这里有一个既不需要numpy也不需要scipy的简洁解决方案：

from Levenshtein import jaro_winkler
data = ['Bob','Carl','Kristen','Calr', 'Doug']
dm = [[ jaro_winkler(a, b) for b in data] for a in data]
print('\n'.join([''.join([f'{item:6.2f}' for item in row]) for row in dm]))

  1.00  0.00  0.00  0.00  0.53
  0.00  1.00  0.46  0.93  0.00
  0.00  0.46  1.00  0.46  0.00
  0.00  0.93  0.46  1.00  0.00
  0.53  0.00  0.00  0.00  1.00

网友

2楼 · 编辑于 2024-10-02 16:20:43

您需要包装距离函数，就像我在下面的示例中演示的levenstein distance

import numpy as np    
from Levenshtein import distance
from scipy.spatial.distance import pdist, squareform

# my list of strings
strings = ["hello","hallo","choco"]

# prepare 2 dimensional array M x N (M entries (3) with N dimensions (1)) 
transformed_strings = np.array(strings).reshape(-1,1)

# calculate condensed distance matrix by wrapping the Levenshtein distance function
distance_matrix = pdist(transformed_strings,lambda x,y: distance(x[0],y[0]))

# get square matrix
print(squareform(distance_matrix))

Output:
array([[ 0.,  1.,  4.],
       [ 1.,  0.,  4.],
       [ 4.,  4.,  0.]])

网友

3楼 · 编辑于 2024-10-02 16:20:43

对于任何有类似问题的人—我刚刚找到的一个解决方案是从pdist函数中提取相关代码，并在jaro_winkler函数输入中添加一个[0]，以从numpy数组中调用字符串。在

示例：

X = np.asarray(fname, order='c')
s = X.shape
m, n = s
dm = np.zeros((m * (m - 1)) // 2, dtype=np.double)

k = 0
for i in xrange(0, m - 1):
    for j in xrange(i + 1, m):
        dm[k] = jaro_winkler(X[i][0], X[j][0])
        k = k + 1

dms = squareform(dm)

即使这个算法是有效的，我仍然想知道是否有一个“正确”的计算机科学方法来处理pdist函数。谢谢，希望这能帮助别人！在

相关问题更多 >

编程相关推荐

热门问题

热门文章