2024-09-25 00:28:20 发布
网友
我试图理解csv文件中列的选择,在应用k-means时应该考虑这些列。 在下面的链接中,只有年收入和支出得分作为一个列(来自Mall\u Customers.csv文件),用于可视化,而不是年龄。 https://www.kaggle.com/shrutimechlearn/step-by-step-kmeans-explained-in-detail
请帮忙
它们有3个特性可用于集群。通常只取所有特征的欧几里德距离即可得到聚类间的距离
这很容易在两个维度上可视化。取两点,它们之间的距离是三角形的斜边。在三维空间里,想象起来有点困难。作者只是简单地使用了两个维度,这样她以后就可以画出来了。但是,要使用所有三个维度,只需将代码修改为:
X = dataset.iloc[:,[1:3]].values
这将在算法中使用年龄、收入和支出得分
它们有3个特性可用于集群。通常只取所有特征的欧几里德距离即可得到聚类间的距离
这很容易在两个维度上可视化。取两点,它们之间的距离是三角形的斜边。在三维空间里,想象起来有点困难。作者只是简单地使用了两个维度,这样她以后就可以画出来了。但是,要使用所有三个维度,只需将代码修改为:
X = dataset.iloc[:,[1:3]].values
这将在算法中使用年龄、收入和支出得分
相关问题 更多 >
编程相关推荐