我想将庞大的数据集进行聚类,但瓶颈是没有目视检查的参数调整
例如:K-means
如果我有N个样本,我不应该尝试从1到N个簇,对吗?太残忍了
但我应该尝试什么呢?从1到N/4?还是N/8?或者坡度变化率
换言之,如何在不通过眼睛检查肘点的情况下确定簇的数目
例如:DBSCAN
遵循here,选择k-距离,但是有没有理论可以帮助我确定k的范围
有人说用k-nn来帮助DBSCAN,但是k-nn的k是一个复杂的问题。我应该如何选择k的范围
我想从上面寻求帮助
任何人都有经验对数据集进行聚类并找到一个较近的(无需非常精确)点来决定参数,而无需目视检查
Tags:
使用弯头方法:
对k个簇执行k均值,计算每个点与其所属簇中心的距离之和(Sklearn中的惯性属性)。为不同的k值绘制它,对于某些k值,应该看不到任何改进(这是肘部)
相关问题 更多 >
编程相关推荐