擅长:python、mysql、java
<p>对于1亿个文档,您需要500000亿个比较。不,在Python中不能这样做。在</p>
<P>最可行的解决方案(除了使用超级计算机之外)是计算C/C++中的相似性得分。在</p>
<ol>
<li>阅读整个数据库并列举每项技能、爱好、认证和教育。这个操作需要一个线性时间,假设您的索引查找是“智能”的,并且需要固定的时间。在</li>
< L>创建一个C/C++ ^ {CD1}},包含四个数字字段:技能、爱好、认证和教育。在</li>
<li>运行一个嵌套循环,从所有其他的<code>struct</code>字段中减去每个{<cd1>},并使用位级算法来评估相似度。在</li>
<li>如有必要,将结果保存到一个文件中,并可供Python程序使用。在</li>
</ol>