对于低密度差异的多维数据,哪种聚类算法最好?

2024-10-03 06:29:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在从事一个项目,我希望对多维数据进行聚类。我尝试了K-Means聚类和DBSCAN聚类,它们都是完全不同的算法

K-Means模型返回了相当好的输出,它返回了5个簇,但我已经读到,当维度较大时,欧几里德距离失败,因此我不知道我是否可以信任该模型

在尝试DBSCAN模型时,该模型生成了大量噪声点,并将大量点聚集在一个簇中。我尝试了KNN距离图法来寻找模型的最佳每股收益,但我似乎无法使模型工作。这导致了我的结论,可能绘制的点的密度非常高,可能这就是我在一个簇中获得很多点的原因

对于集群,我使用了10列不同的数据我应该更改我使用的算法吗?对于多维数据和密度变化较小的数据,哪种算法更好


Tags: 数据项目模型算法距离聚类收益噪声
2条回答

也许这会给你一些启示:Scikit-learn clustering algorithms 我建议你试试看。希望有帮助

您可以首先使用PCA/LDA/t-sne或自动编码器对数据集进行降维。然后运行standart的一些聚类算法

另一种方法是可以使用奇特的深度聚类方法。这个blog post非常好地解释了他们如何在高维数据集上应用深度聚类

相关问题 更多 >