因此,我将kmeans应用于一个大型数据集,我必须对其进行聚类,得到的聚类结果如下
但是我没有处理异常值,我想我想在相同的数据上实现dbscan算法,看看它是如何工作的,但问题是我需要有epsilon
和min_samples
的最佳值。因此,我采用了使用最近邻法寻找最优ε的方法,但得到的图如下所示
获得最佳ε的弯头方法:
所以现在我找不到我的最佳ε值和min_samples
值,我实际上希望它是3个簇用于我的分析,所以我尝试了一些ε值和min_samples
值,在epsilon = 0.000001
和min_samples = 2000
处,我得到了估计的簇数为3,但当我可视化这些簇时,它没有任何意义。图片如下:
我为dbscan编写的代码如下
如果有人想查看完整的文件,这里有colab文件链接。colab file
目前没有回答
相关问题 更多 >
编程相关推荐