使用相似函数对scikitlearn进行聚类

Sim=np.zeros((n, n)) # create a numpy arrary i=0 j=0 for i in range(0,n): for j in range(i,n): if i==j: Sim[i][j]=1 else: Sim[i][j]=simfunction(list_doc[i],list_doc[j]) # calculate similarity between documents i and j using simfunction Sim=Sim+ Sim.T - np.diag(Sim.diagonal()) # complete the symmetric matrix AggClusterDistObj=AgglomerativeClustering(n_clusters=num_cluster,linkage='average',affinity="precomputed") Res_Labels=AggClusterDistObj.fit_predict(Sim)

1条回答

网友

1楼 · 发布于 2024-10-03 02:45:23

请正确格式化您的代码，因为缩进在Python中很重要。
如果可能，请保持代码完整（省略了import numpy as np）。
由于range总是从零开始，所以可以省略它并编写range(n)。

numpy中的索引工作方式类似于[i，j，k，…]。
因此，实际上不是Sim[i][j]，而是编写Sim[i, j]，因为否则需要执行两个操作：首先获取整个行切片，然后为列编制索引。这里有另一种方法来复制上三角的元素到下三角的元素

Sim = np.identity(n) # diagonal with ones (100 percent similarity)

for i in range(n):      
    for j in range(i+1, n):    # +1 skips the diagonal 
        Sim[i, j]= simfunction(list_doc[i], list_doc[j])

# Expand the matrix (copy triangle)
tril = np.tril_indices_from(Sim, -1) # take lower & upper triangle's indices
triu = np.triu_indices_from(Sim, 1)  # (without diagonal)
Sim[tril] = Sim[triu]

假设你真的在范围（0，1）内有相似性，把你的相似性矩阵转换成一个距离矩阵，你可以简单地做
dm = 1 - Sim
此操作将被numpy矢量化

相关问题更多 >

编程相关推荐

热门问题

热门文章