Python聚类数值d

2024-09-27 18:04:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我下面是一个教程,其中“kmeans”算法是整个示例的主要部分。“行”列表作为要群集的数据传递。Pearson函数提供第二个参数,即相关系数,k=3为聚类数。从kmeans函数返回的“bestmatches”是与属于每个集群的行中的元素相对应的分组/聚集索引值的列表。当我需要绘制散点图时,我需要它们的值。如何返回值而不是索引的值?在

rows=[(1,1),(3,6),(11,2),(7,19),(22,11),(32,11)]

def pearson(v1,v2):

#sums
sum1=sum(v1)
sum2=sum(v2)
print(sum1)
#sums of the sqs
sum1Sq=sum([pow(v,2) for v in v1])
sum2Sq=sum([pow(v,2) for v in v2])

#sum of products
pSum=sum([v1[i]*v2[i] for i in range(len(v1))])

#calculate pearson R
num=pSum-(sum1*sum2/len(v1))
den=sqrt((sum1Sq-pow(sum1,2)/len(v1))*(sum2Sq-pow(sum2,2)/len(v1)))
if den==0: return 0

return 1.0-num/den 



def kmeans(rows,distance=pearson,k=3):
#Determine the min and max values for each point

#COunt through "rows"(data) and find min and max values
ranges=[(min([row[i] for row in rows]),max([row[i] for row in rows]))

for i in range(len(rows[0]))]    
#create k randomly placed centroids within len of 'data'
clusters=[[random.random()*(ranges[i][1]-ranges[i][0])+ranges[i][0]

for i in range(len(rows[0]))] for j in range(k)]
lastmatches=None
for t in range(100):
    print 'Iteration %d' % t

    bestmatches=[[] for i in range(k)]

    #find which centroid is the closest to each row
    for j in range(len(rows)):
        row=rows[j]
        bestmatch=0
        for i in range(k):
            d=distance(clusters[i],row)
            if d<distance(clusters[bestmatch],row): bestmatch=i

        bestmatches[bestmatch].append(j)

    if bestmatches==lastmatches: break
    lastmatches=bestmatches

    #move centroids to the avg of members
    for i in range(k):
        avgs=[0.0]*len(rows[0])
        if len(bestmatches[i])>0:
            #print(len(bestmatches[i]))
            for rowid in bestmatches[i]:
                for m in range(len(rows[rowid])):
                    avgs[m]+=rows[rowid][m]
                for j in range(len(avgs)):
                    avgs[j]/=len(bestmatches[i])
                clusters[i]=avgs

    return bestmatches

Tags: oftheinforlenrangev2rows
1条回答
网友
1楼 · 发布于 2024-09-27 18:04:00

不要使用pearson相关系数的k均值

这可能会失败,因为pearson相关和平均值是不兼容的,可能会阻止算法收敛。更糟糕的是,它可能产生无效值。在

如果你取这两个向量

1 2 3 4 5
9 8 7 6 5

那么平均值是

^{pr2}$

所得的平均值不能与Pearson correlation一起使用,因为它是常值。在

K均值仅适用于Brgeman发散,例如平方欧几里德。因为它是关于方差最小化,而不是距离最小化

K-means不能用于任意距离。如果您有其他距离,请使用k-medians(PAM)或其他聚类算法。在

相关问题 更多 >

    热门问题