用python和DBSCAN对高维数据进行集群

2024-05-20 13:43:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个1000维的数据集,我试图用Python中的DBSCAN对数据进行集群。我很难理解该选择什么样的指标以及为什么。

有人能解释一下吗?我应该如何决定将eps设置为什么值?

我对数据的更精细结构感兴趣,所以min_value被设置为2。现在我使用的是sklearn中为dbscan预设的常规度量,但是对于较小的eps值,例如eps<;0.07,我会得到一些簇,但会漏掉许多点;对于较大的值,我会得到几个较小的簇和一个较大的簇。我知道一切都取决于手头的数据,但我对如何以连贯和结构化的方式选择每股收益值以及选择何种指标的技巧感兴趣!

我已经阅读了this question和关于10个维度的答案,我有1000:)而且我也不知道如何评估我的度量,所以有一个更详细的解释是有趣的:评估你的度量!

编辑:或其他集群算法的提示,这些算法使用现有的python实现处理高维数据。


Tags: 数据算法度量value集群sklearnepsmin