大内存嵌入数据集的社区检测

2024-09-30 22:15:56 发布

男 | 程序猿一只，喜欢编程写python代码。

我目前有一个文本嵌入数据集（768维）。目前记录的数量约为100万条。我希望通过社区检测算法检测相关嵌入。对于小型数据集，我可以使用以下数据集：

它工作得很好，但是，随着数据集比内存大，它并不能真正扩展

这里的关键是我能够为社区匹配指定阈值。我已经能够找到比内存更大的集群算法，但我总是必须提前指定固定数量的集群。我需要系统为我检测集群的数量

我确信有一类算法——希望还有一个python库——可以处理这种情况，但我一直无法找到它。有人知道我可以使用的算法或解决方案吗

Tags：数据内存 https 文本 github com 算法数量

1条回答

网友

1楼 · 发布于 2024-09-30 22:15:56

这似乎足够小，你可以租一台更大的电脑

然而，要回答这个问题，通常需要将数据聚类成几个适合内存的块（重叠或不重叠），然后对每个块应用更高质量的内存聚类算法。余弦相似性的一个典型策略是按SimHashes聚类，但是