大型数据集上的DBSCAN实现(百万行)

2024-09-29 08:26:13 发布

您现在位置:Python中文网/ 问答频道 /正文

因此,我将kmeans应用于一个大型数据集,我必须对其进行聚类,得到的聚类结果如下

kmeans-result

但是我没有处理异常值,我想我想在相同的数据上实现dbscan算法,看看它是如何工作的,但问题是我需要有epsilonmin_samples的最佳值。因此,我采用了使用最近邻法寻找最优ε的方法,但得到的图如下所示

获得最佳ε的弯头方法:

所以现在我找不到我的最佳ε值和min_samples值,我实际上希望它是3个簇用于我的分析,所以我尝试了一些ε值和min_samples值,在epsilon = 0.000001min_samples = 2000处,我得到了估计的簇数为3,但当我可视化这些簇时,它没有任何意义。图片如下:

dbscan-result

我为dbscan编写的代码如下

dbscan code

如果有人想查看完整的文件,这里有colab文件链接。colab file


Tags: 文件数据方法算法可视化聚类resultmin