擅长:python、mysql、java
<p>我建议你查一下收款柜台。尤其是对于大量的文本,这样做的诀窍,只有有限的可用内存。在一台拥有12Gb内存的电脑上,它一天半的时间就计算出300亿个代币。伪代码(变量字实际上是对文件或类似文件的引用):</p>
<pre><code>from collections import Counter
my_counter = Counter()
for word in Words:
my_counter.update(word)
</code></pre>
<p>完成后,单词会被放入字典my_counter中,然后可以将其写入磁盘或存储在其他地方(例如sqlite)。</p>