擅长:python、mysql、java
<p>除了数所有的对,你没什么可做的。在</p>
<p>明显的优化是尽早删除重复的单词和同义词,执行词干分析(任何减少不同标记数的方法都是好的!),并且只计算对<code>(a,b)</code>,其中<code>a<b</code>(在您的示例中,只有count <code>statistics,narnia</code>,或{<cd4>},但不能两者都有!)。在</p>
<p>如果内存不足,请执行两次传递。在第一个过程中,使用一个或多个哈希函数来获取候选筛选器。在第二个过程中,只计算通过这个过滤器的单词(MinHash/LSH样式过滤)。在</p>
<p>这是一个简单的并行问题,因此也很容易将其分发到多个线程或计算机上。在</p>