存储ngram模型python

1条回答

网友

1楼 · 发布于 2024-10-02 12:26:40

我将把我的答案分成两部分，第一部分是为什么以字典的形式存储它是个坏主意，第二部分是存储ngram的最佳数据结构。在

考虑在字典中存储以下单词：“Bond”、“Boat”、“Build”，包含这些键的字典的大小将被哈希为某个整数，其大小大致与单词数和字符数成正比。所以，从技术上讲，我们需要额外的空间来存储某些可能会重复的字母。现在，问题变得很明显，我们要花费大量额外的内存来存储不需要重新存储的部分字符串。在

问题是，这里可以使用的理想数据结构是什么。此数据结构的必要条件是：

高效存储
值检索（大致恒定时间）

如果我们考虑哪种数据结构符合这些要求，那么马上就会想到的是一个Trie，或者更准确地说，是前缀Trie。Trie的固有结构很有帮助，因为我们可以在单个字符上节省空间，否则将多次存储这些字符。像我上面的例子中的一小部分单词，问题并不是很严重。然而，随着单词集长度的增加，使用哈希表/字典很快就会耗尽空间。在

希望这有帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章

存储ngram模型python

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >