为自动更正程序快速保存和检索python数据结构?

2024-09-28 12:16:41 发布

您现在位置:Python中文网/ 问答频道 /正文

所以,我用Python2编写了一个自动完成和自动更正程序。我用peternorvig的博客中提到的方法编写了自动更正程序link。在

现在,我使用的是使用嵌套列表实现的trie数据结构。我用的是trie,因为它可以给我所有的词以一个特定的开头前缀。Atleaf将是一个元组,其中包含单词和一个表示字。为了e、 g.-单词bad,bat,cat将被保存为-

['b'['a'['d',('bad',4),'t',('bat',3)]],'c'['a'['t',('cat',4)]]]

其中4,3,4是单词被使用的次数或频率值。同样地,我用英语词典储存了13000个单词。在

现在,读取整个trie大约需要3-4秒时间。那个问题是每次遇到一个字,频率值必须递增,然后更新的trie需要再次保存。正如您可以想象的那样,每次等待3-4秒来读取,然后每次都要花那么多时间保存更新的trie,这将是一个大问题。每次运行程序时,我都需要执行许多更新操作并保存它们。在

有没有一种更快或更有效的方法来存储一个重复更新的大数据结构?IDE和移动设备中的自动更正程序的数据结构如何保存和检索得如此之快?我也对不同的方法持开放态度。在


Tags: 方法程序数据结构列表时间link单词cat
2条回答

我建议您将序列化移动到一个单独的线程,并定期运行它。不需要每次都重新读取数据,因为内存中已经有最新版本。这样,当数据保存到磁盘时,程序就会对用户做出响应。磁盘上保存的版本可能会滞后,最新的更新可能会在程序崩溃的情况下丢失,但这对您的用例来说应该不是什么大问题,我想。在

它取决于特定的用例和环境,但是,我认为,大多数具有本地数据集的程序使用多线程同步它们。在

我想到了一些事情。在

1)拆分数据。假设使用26个文件,每个文件存储以某个字符开头的尝试。您可以改进它,以便使用前缀。这样,您需要写入的数据量就更少了。在

2)不要将所有内容都反映到磁盘上。如果你需要执行很多操作,在ram(内存)中执行它们,然后在最后写下来。如果你害怕数据丢失,你可以在一段时间后或者在一系列操作之后检查你的计算。在

3)多线程。除非你的程序只做拼写检查,否则很可能还有其他事情需要做。有一个单独的线程来执行加载写操作,这样它在执行磁盘IO时不会阻塞所有内容。python中的多线程有点棘手,但它是可以做到的。在

4)定制结构。序列化所花费的部分时间是调用序列化函数。因为你有一个字典,里面有很多函数调用。在完美的情况下,您应该有一个与磁盘表示完全匹配的内存表示形式。然后,您只需读取一个大字符串并将其放入自定义类(并在需要时将该字符串写入磁盘)。这是一种更高级的方法,而且可能不会带来太大的好处,尤其是python在处理位时效率不高,但是如果您需要从中挤出最后一点速度,这是一种方法。在

相关问题 更多 >

    热门问题