在kMeans聚类算法中,如何选择适合可视化的列?

2024-09-25 00:28:20 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图理解csv文件中列的选择,在应用k-means时应该考虑这些列。 在下面的链接中,只有年收入和支出得分作为一个列(来自Mall\u Customers.csv文件),用于可视化,而不是年龄。 https://www.kaggle.com/shrutimechlearn/step-by-step-kmeans-explained-in-detail

请帮忙


Tags: 文件csvhttpscom链接可视化wwwstep
1条回答
网友
1楼 · 发布于 2024-09-25 00:28:20

它们有3个特性可用于集群。通常只取所有特征的欧几里德距离即可得到聚类间的距离

这很容易在两个维度上可视化。取两点,它们之间的距离是三角形的斜边。在三维空间里,想象起来有点困难。作者只是简单地使用了两个维度,这样她以后就可以画出来了。但是,要使用所有三个维度,只需将代码修改为:

X = dataset.iloc[:,[1:3]].values

这将在算法中使用年龄、收入和支出得分

相关问题 更多 >