KMeans集群可以处理多维数据吗?

2024-09-25 08:30:51 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在研究如何在集群中处理多维数据集。 数据集有120多个项目,其中有6个特征,但没有y标签

例如:

"""
######################################################################################
#        Id        EndDate      EPS      PE       PB      NetProfit     ROE       ROA#
#         1        2020/12/31   1.2      3.4      1.1     30            40        13 #
#         2        2020/12/31   0.4      2.2      3.1     10            32        32 #
#       ...                                                                          #
#       119        2020/12/31   0.2      0.3      0.2     0.43          120       87 #                                                                          #
#       120        2020/12/31   34.2     12       5.6     120.4         12.4      11 #
######################################################################################
"""

这类数据是否可以通过K均值聚类很好地拟合?假设我们不减少特性。 大多数时候,在线教程都会以2到3个功能为例。此外,如何用如此高的维度检查结果也是我关心的另一个问题。通常2维或3维我可以绘制图片,看看它是否好,但如何处理多维数据


Tags: 数据项目id集群聚类特征标签eps
1条回答
网友
1楼 · 发布于 2024-09-25 08:30:51

嗯,它本身不是多维的。因为它是一个表格数据集,所以它适合于K-means聚类。您只需将原始值转换为一些有意义的特征,并对其进行规范化,以便在最后处理每行的特征向量,并可以轻松应用聚类所依赖的距离度量算法。
所以回答你的问题:是的,这个数据对K-means来说很好。列数不会更改数据的维度,它只会更改要处理的最终特征向量的长度

相关问题 更多 >