聚类算法:R中的HDBSCAN与Python中的HDBSCAN?

2024-09-27 21:23:39 发布

您现在位置:Python中文网/ 问答频道 /正文

对于处理探索性数据,哪种方法是最好的聚类方法?目前我使用HDBSCAN。问题是我在R中使用HDBSCAN得到的结果与在Python中通过HDSCBAN得到的结果不同。在

R版本:https://rdrr.io/cran/largeVis/man/hdbscan.html

链接到R的数据文件:https://www.dropbox.com/s/731hjrj0geibi3f/test.csv?dl=0

test_r <- data.frame("data")
vis <- largevis::largevis(test_r)
cluster <- largevis::hdbscan(vis)
largevis::gplot(cluster,t(vis$coords), text = TRUE)

OUTPUT of R

Python版本:https://github.com/scikit-learn-contrib/hdbscan/tree/master/hdbscan

链接到Python的数据文件:https://www.dropbox.com/s/640elbjr1xt8q3e/test_projection.txt?dl=0

^{pr2}$

OUTPUT of Python

两个版本的输出差异的原因是什么?如何确定结果的准确性?(即簇数、簇大小和噪声)

http://hdbscan.readthedocs.io/en/latest/basic_hdbscan.html


Tags: 方法httpsiotest版本com链接数据文件

热门问题