我的代码中已经计算了两个dictionaries
,如下所示:
X = {'a': 10, 'b': 3, 'c': 5, ...}
Y = {'a': 8, 'c': 3, 'e': 8, ...}
实际上,它们包含来自wiki文本的单词,但这应该能说明我的意思。它们不一定包含相同的键。在
最初我想使用sklearn
的成对度量,如下所示:
但是,这会产生一个错误:
--------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-124-7ff03bd40683> in <module>()
6 biden = wiki[wiki['name'] == 'Joe Biden']['tf_idf'][0]
7
----> 8 obama_biden_distance = pairwise_distances(obama, biden, metric='euclidean', n_jobs=2)[0][0]
/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in pairwise_distances(X, Y, metric, n_jobs, **kwds)
1205 func = partial(distance.cdist, metric=metric, **kwds)
1206
-> 1207 return _parallel_pairwise(X, Y, func, n_jobs, **kwds)
1208
1209
/home/xiaolong/development/anaconda3/envs/coursera_ml_clustering_and_retrieval/lib/python3.4/site-packages/sklearn/metrics/pairwise.py in _parallel_pairwise(X, Y, func, n_jobs, **kwds)
1058 ret = Parallel(n_jobs=n_jobs, verbose=0)(
1059 fd(X, Y[s], **kwds)
-> 1060 for s in gen_even_slices(Y.shape[0], n_jobs))
1061
1062 return np.hstack(ret)
AttributeError: 'dict' object has no attribute 'shape'
对我来说,这就像是在试图访问shape
属性,dict
没有这个属性。我想它需要numpy
数组。如果一个字典没有某个键,而另一个字典有一个键,我该如何转换字典,以便sklearn
函数计算正确的距离,假设0
值?在
为什么不直接从稀疏表示中进行呢?在
您可以先创建一个包含字典所有键的列表(需要注意的是,必须对该列表进行排序):
这在Python2中工作得很好,但是如果您使用的是python3,则需要添加一个句子
^{pr2}$from functools import reduce
(感谢@Zelphir发现了这一点)。如果不想导入functools
模块,可以用以下代码替换上面代码段的最后一行:无论您选择什么方法,列表
words
都可以设置一个矩阵,其中每一行对应于一个字典(一个示例),并且这些字典(特征)的值被放在与其键对应的列中。在此矩阵可传递给scikit的函数
pairwise_distance
:下面的交互式会话演示了它的工作原理:
最后,您可以将上面的代码包装成一个函数来计算任意数量字典的成对距离:
我避免了对
reduce
的调用,以便包装器能够跨版本工作。在演示:
似乎您希望使用
X.get(search_string,0)
,如果找不到,它将输出值或0。如果你有很多搜索字符串,你可以做[X.get(s,0) for s in list_of_strings]
,这将推送一个输出列表。在相关问题 更多 >
编程相关推荐