擅长:python、mysql、java
<p>我想到了一些事情。在</p>
<p>1)拆分数据。假设使用26个文件,每个文件存储以某个字符开头的尝试。您可以改进它,以便使用前缀。这样,您需要写入的数据量就更少了。在</p>
<p>2)不要将所有内容都反映到磁盘上。如果你需要执行很多操作,在ram(内存)中执行它们,然后在最后写下来。如果你害怕数据丢失,你可以在一段时间后或者在一系列操作之后检查你的计算。在</p>
<p>3)多线程。除非你的程序只做拼写检查,否则很可能还有其他事情需要做。有一个单独的线程来执行加载写操作,这样它在执行磁盘IO时不会阻塞所有内容。python中的多线程有点棘手,但它是可以做到的。在</p>
<p>4)定制结构。序列化所花费的部分时间是调用序列化函数。因为你有一个字典,里面有很多函数调用。在完美的情况下,您应该有一个与磁盘表示完全匹配的内存表示形式。然后,您只需读取一个大字符串并将其放入自定义类(并在需要时将该字符串写入磁盘)。这是一种更高级的方法,而且可能不会带来太大的好处,尤其是python在处理位时效率不高,但是如果您需要从中挤出最后一点速度,这是一种方法。在</p>