大型数据集上的DBSCAN实现（百万行）

2024-09-29 08:26:13 发布

您现在位置：Python中文网/ 问答频道 /正文

4684

网友

男 | 程序猿一只，喜欢编程写python代码。

因此，我将kmeans应用于一个大型数据集，我必须对其进行聚类，得到的聚类结果如下

kmeans-result

但是我没有处理异常值，我想我想在相同的数据上实现dbscan算法，看看它是如何工作的，但问题是我需要有epsilon和min_samples的最佳值。因此，我采用了使用最近邻法寻找最优ε的方法，但得到的图如下所示

获得最佳ε的弯头方法：

所以现在我找不到我的最佳ε值和min_samples值，我实际上希望它是3个簇用于我的分析，所以我尝试了一些ε值和min_samples值，在epsilon = 0.000001和min_samples = 2000处，我得到了估计的簇数为3，但当我可视化这些簇时，它没有任何意义。图片如下：

我为dbscan编写的代码如下

如果有人想查看完整的文件，这里有colab文件链接。colab file

Tags：文件数据方法算法可视化聚类 result min

0条回答

目前没有回答

大型数据集上的DBSCAN实现（百万行）

相关问题更多 >

编程相关推荐

热门问题

热门文章

大型数据集上的DBSCAN实现（百万行）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >