计算数百万份文档之间的相似度指标

skills hobbies certification education Java fishing PMP MS Python reading novel SCM BS C# video game PMP B.Tech. C++ fishing PMP MS

3条回答

网友

1楼 · 编辑于 2024-06-26 03:31:18

我想你想要的是某种聚类算法。您可以将数据的每一行看作多维空间中的一个点。然后你想寻找附近的其他“点”。并不是所有的数据维度都能产生良好的聚类，因此您需要分析数据中哪些维度对生成集群非常重要，并通过映射到较低维度的数据来降低查找类似记录的复杂性。scikit-learn提供了一些用于维度分析和聚类的良好例程，以及一些帮助您决定将哪些例程应用于数据的最佳文档。对于实际的分析，我认为您最好购买AWS或googleappengine的云计算时间。我相信两者都可以让您访问节点上可用的Anaconda（包括scikit learn）的Hadoop集群。关于这些主题（集群、云计算）的详细说明都超出了简单的答案。当你陷入困境时，再问一个问题。在

网友

2楼 · 编辑于 2024-06-26 03:31:18

对于1亿个文档，您需要500000亿个比较。不，在Python中不能这样做。在

最可行的解决方案（除了使用超级计算机之外）是计算C/C++中的相似性得分。在

阅读整个数据库并列举每项技能、爱好、认证和教育。这个操作需要一个线性时间，假设您的索引查找是“智能”的，并且需要固定的时间。在
运行一个嵌套循环，从所有其他的struct字段中减去每个{}，并使用位级算法来评估相似度。在
如有必要，将结果保存到一个文件中，并可供Python程序使用。在

网友

3楼 · 编辑于 2024-06-26 03:31:18

一种加快速度的方法是确保你不会同时计算相似度。您当前的伪代码将比较i和{}和j与{}。不要在整个文档中迭代j，而是迭代document[i+1:]，即只在i之后的条目。这将使您对compute_similarity的调用减少一半。在

最适合这种比较的数据结构是邻接矩阵。这将是一个n * n矩阵（n是数据集中的成员数），其中matrix[i][j]是成员{}和{}之间的相似性。您可以完全填充这个矩阵，同时只需对j进行半次迭代，只需同时为matrix[i][j]和{}分配一个对compute_similarity的调用。在

除此之外，我想不出任何加快此过程的方法；您至少需要对compute_similarity进行n * (n - 1) / 2调用。把它想象成握手问题；如果每个成员都必须与每个其他成员（握手）至少比较一次，那么下限是n * (n - 1) / 2。但我欢迎其他人的意见！在

相关问题更多 >

编程相关推荐

热门问题

热门文章