我目前有一个文本嵌入数据集(768维)。目前记录的数量约为100万条。我希望通过社区检测算法检测相关嵌入。对于小型数据集,我可以使用以下数据集:
https://github.com/UKPLab/sentence-transformers/blob/master/examples/applications/clustering/fast_clustering.py
它工作得很好,但是,随着数据集比内存大,它并不能真正扩展
这里的关键是我能够为社区匹配指定阈值。我已经能够找到比内存更大的集群算法,但我总是必须提前指定固定数量的集群。我需要系统为我检测集群的数量
我确信有一类算法——希望还有一个python库——可以处理这种情况,但我一直无法找到它。有人知道我可以使用的算法或解决方案吗
Tags:
这似乎足够小,你可以租一台更大的电脑
然而,要回答这个问题,通常需要将数据聚类成几个适合内存的块(重叠或不重叠),然后对每个块应用更高质量的内存聚类算法。余弦相似性的一个典型策略是按SimHashes聚类,但是
相关问题 更多 >
编程相关推荐