我目前正在研究如何在集群中处理多维数据集。 数据集有120多个项目,其中有6个特征,但没有y标签
例如:
"""
######################################################################################
# Id EndDate EPS PE PB NetProfit ROE ROA#
# 1 2020/12/31 1.2 3.4 1.1 30 40 13 #
# 2 2020/12/31 0.4 2.2 3.1 10 32 32 #
# ... #
# 119 2020/12/31 0.2 0.3 0.2 0.43 120 87 # #
# 120 2020/12/31 34.2 12 5.6 120.4 12.4 11 #
######################################################################################
"""
这类数据是否可以通过K均值聚类很好地拟合?假设我们不减少特性。 大多数时候,在线教程都会以2到3个功能为例。此外,如何用如此高的维度检查结果也是我关心的另一个问题。通常2维或3维我可以绘制图片,看看它是否好,但如何处理多维数据
嗯,它本身不是多维的。因为它是一个表格数据集,所以它适合于K-means聚类。您只需将原始值转换为一些有意义的特征,并对其进行规范化,以便在最后处理每行的特征向量,并可以轻松应用聚类所依赖的距离度量算法。
所以回答你的问题:是的,这个数据对K-means来说很好。列数不会更改数据的维度,它只会更改要处理的最终特征向量的长度
相关问题 更多 >
编程相关推荐