擅长:python、mysql、java
<p>我想你想要的是某种聚类算法。您可以将数据的每一行看作多维空间中的一个点。然后你想寻找附近的其他“点”。并不是所有的数据维度都能产生良好的聚类,因此您需要分析数据中哪些维度对生成集群非常重要,并通过映射到较低维度的数据来降低查找类似记录的复杂性。<a href="https://www.scikit-learn.org" rel="nofollow noreferrer">scikit-learn</a>提供了一些用于维度分析和聚类的良好例程,以及一些帮助您决定将哪些例程应用于数据的最佳文档。对于实际的分析,我认为您最好购买AWS或googleappengine的云计算时间。我相信两者都可以让您访问节点上可用的Anaconda(包括scikit learn)的Hadoop集群。关于这些主题(集群、云计算)的详细说明都超出了简单的答案。当你陷入困境时,再问一个问题。在</p>