从dicts计算欧几里德距离（sklearn）

-------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-124-7ff03bd40683> in <module>() 6 biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0] 7 ----> 8 obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0] /home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in pairwise_distances(X, Y, metric, n_jobs, **kwds) 1205 func = partial(distance.cdist, metric=metric, **kwds) 1206 -> 1207 return _parallel_pairwise(X, Y, func, n_jobs, **kwds) 1208 1209 /home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in _parallel_pairwise(X, Y, func, n_jobs, **kwds) 1058 ret = Parallel(n_jobs=n_jobs, verbose=0)( 1059 fd(X, Y[s], **kwds) -> 1060 for s in gen_even_slices(Y.shape[0], n_jobs)) 1061 1062 return np.hstack(ret) AttributeError: 'dict' object has no attribute 'shape'

3条回答

网友

1楼 · 编辑于 2024-09-30 01:25:23

为什么不直接从稀疏表示中进行呢？在

In [1]: import math

In [2]: Y = {'a': 8, 'c':3,'e':8}

In [3]: X = {'a':10, 'b':3, 'c':5}

In [4]: math.sqrt(sum((X.get(d,0) - Y.get(d,0))**2 for d in set(X) | set(Y)))
Out[4]: 9.0

网友

2楼 · 编辑于 2024-09-30 01:25:23

您可以先创建一个包含字典所有键的列表（需要注意的是，必须对该列表进行排序）：

X = {'a': 10, 'b': 3, 'c': 5}
Y = {'a': 8, 'c': 3, 'e': 8}
data = [X, Y]
words = sorted(list(reduce(set.union, map(set, data))))

这在Python2中工作得很好，但是如果您使用的是python3，则需要添加一个句子from functools import reduce（感谢@Zelphir发现了这一点）。如果不想导入functools模块，可以用以下代码替换上面代码段的最后一行：

^{pr2}$

无论您选择什么方法，列表words都可以设置一个矩阵，其中每一行对应于一个字典（一个示例），并且这些字典（特征）的值被放在与其键对应的列中。在

feats = zip(*[[d.get(w, 0) for d in data] for w in words])

此矩阵可传递给scikit的函数pairwise_distance：

from sklearn.metrics.pairwise import pairwise_distances as pd
dist = pd(feats, metric='euclidean')

下面的交互式会话演示了它的工作原理：

In [227]: words
Out[227]: ['a', 'b', 'c', 'e']

In [228]: feats
Out[228]: [(10, 3, 5, 0), (8, 0, 3, 8)]

In [229]: dist
Out[229]: 
array([[ 0.,  9.],
       [ 9.,  0.]])

最后，您可以将上面的代码包装成一个函数来计算任意数量字典的成对距离：

def my_func(data, metric='euclidean'):
    words = set(data[0])
    for d in data[1:]:
        words = words | set(d)
    words = sorted(list(words))
    feats = zip(*[[d.get(w, 0) for d in data] for w in words])
    return pd(feats, metric=metric)

我避免了对reduce的调用，以便包装器能够跨版本工作。在

演示：

In [237]: W = {'w': 1}

In [238]: Z = {'z': 1}

In [239]: my_func((X, Y, W, Z), 'cityblock')
Out[239]: 
array([[  0.,  15.,  19.,  19.],
       [ 15.,   0.,  20.,  20.],
       [ 19.,  20.,   0.,   2.],
       [ 19.,  20.,   2.,   0.]])

网友

3楼 · 编辑于 2024-09-30 01:25:23

似乎您希望使用X.get(search_string,0)，如果找不到，它将输出值或0。如果你有很多搜索字符串，你可以做[X.get(s,0) for s in list_of_strings]，这将推送一个输出列表。在

相关问题更多 >

编程相关推荐

热门问题

热门文章