大内存嵌入数据集的社区检测

2024-09-30 22:15:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前有一个文本嵌入数据集(768维)。目前记录的数量约为100万条。我希望通过社区检测算法检测相关嵌入。对于小型数据集,我可以使用以下数据集:

https://github.com/UKPLab/sentence-transformers/blob/master/examples/applications/clustering/fast_clustering.py

它工作得很好,但是,随着数据集比内存大,它并不能真正扩展

这里的关键是我能够为社区匹配指定阈值。我已经能够找到比内存更大的集群算法,但我总是必须提前指定固定数量的集群。我需要系统为我检测集群的数量

我确信有一类算法——希望还有一个python库——可以处理这种情况,但我一直无法找到它。有人知道我可以使用的算法或解决方案吗


Tags: 数据内存https文本githubcom算法数量
1条回答
网友
1楼 · 发布于 2024-09-30 22:15:56

这似乎足够小,你可以租一台更大的电脑

然而,要回答这个问题,通常需要将数据聚类成几个适合内存的块(重叠或不重叠),然后对每个块应用更高质量的内存聚类算法。余弦相似性的一个典型策略是按SimHashes聚类,但是

  1. 那里有一整部文学作品
  2. 如果你已经有了一个你喜欢的可伸缩的集群算法,你可以使用它

相关问题 更多 >