聚类二进制d

2024-10-01 04:52:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我想对以下数据执行聚类分析(示例):

    ID     CODE1     CODE2     CODE3     CODE4      CODE5      CODE6
   ------------------------------------------------------------------
   00001     0         1         1         0          0          0
   00002     1         0         0         0          1          1
   00003     0         1         0         1          1          1
   00004     1         1         1         0          1          0
    ...

其中1表示该代码存在,0表示不存在。。 k-means或层次聚类最适合于对这类数据的代码进行聚类(对于大约一百万个不同的id),以及使用哪种距离度量?如果这两种方法都不合适,你认为什么最合适?在

谢谢你


Tags: 数据代码id距离示例度量聚类means
1条回答
网友
1楼 · 发布于 2024-10-01 04:52:04

不,k-means对二进制数据没有多大意义。在

因为k-均值计算均值。但是二进制数据的平均向量是多少?在

您的集群“中心”将不是您的数据空间的一部分,与您的输入数据完全不同。当它和你的物体完全不同的时候,对我来说这似乎不是一个合适的“中心”。在

最有可能的是,您的集群“中心”最终将彼此更加相似,而不是实际的集群成员,因为它们位于中心的某个地方,而您的所有数据都在角落中。在

认真地说,研究数据类型的相似函数。然后选择一个使用这个距离函数的聚类算法。层次聚类是相当普遍的,但非常缓慢。但你不必使用一个40年前的算法,你可能想看看更现代的东西。在

相关问题 更多 >