我对亲和力传播这个概念了解不多,但在我的项目中,我发现将我正在处理的文本进行聚类是很有用的。目前,我已经广泛地跟踪了我可以在网上找到的任何代码片段。在
所以:
lev_similarity = -1*np.array([[Levenshtein.distance(w1,w2) for w1 in new_data] for w2 in new_data])
ap = sklearn.cluster.AffinityPropagation(affinity="euclidean", damping=0.5)
ap.fit(lev_similarity)
如您所见,我使用Levenshtein算法来定义两点之间的距离。在
我的问题是:
http://scikit-learn.org/stable/modules/generated/sklearn.cluster.AffinityPropagation.html
编辑:
显然,我使用的是预先计算的距离测量,所以让affinity=“pre-computed”似乎是正确的选择。那样的话
^{pr2}$新的数据也封装了测试数据。在
然后问题变成了:如何使用这个模型进行查询?在
对于您的第一个问题,您提供的文档链接表明“predict”方法接受并返回和数组-这是一个列表。在用户指南(文档中的链接)中,我找到了输入/输出的示例:
所以,如果您已经有一个字符串包含要建模的数据,只需将其转换为一个列表。在
文档还描述了AffinityPropagation类返回什么方法来回答第二个问题。在
相关问题 更多 >
编程相关推荐