我目前正在从事一个项目,我希望对多维数据进行聚类。我尝试了K-Means聚类和DBSCAN聚类,它们都是完全不同的算法
K-Means模型返回了相当好的输出,它返回了5个簇,但我已经读到,当维度较大时,欧几里德距离失败,因此我不知道我是否可以信任该模型
在尝试DBSCAN模型时,该模型生成了大量噪声点,并将大量点聚集在一个簇中。我尝试了KNN距离图法来寻找模型的最佳每股收益,但我似乎无法使模型工作。这导致了我的结论,可能绘制的点的密度非常高,可能这就是我在一个簇中获得很多点的原因
对于集群,我使用了10列不同的数据我应该更改我使用的算法吗?对于多维数据和密度变化较小的数据,哪种算法更好
也许这会给你一些启示:Scikit-learn clustering algorithms 我建议你试试看。希望有帮助
您可以首先使用PCA/LDA/t-sne或自动编码器对数据集进行降维。然后运行standart的一些聚类算法
另一种方法是可以使用奇特的深度聚类方法。这个blog post非常好地解释了他们如何在高维数据集上应用深度聚类
相关问题 更多 >
编程相关推荐