<p>我有一个输入文件,由数字行和字序列组成,结构如下:</p>
<pre><code>\1-grams:
number w1 number
number w2 number
\2-grams:
number w1 w2 number
number w1 w3 number
number w2 w3 number
\end\
</code></pre>
<p>我想以这样一种方式存储单词序列(所谓的n-gram),这样我就可以很容易地为每个唯一的n-gram检索两个数字。我现在要做的是:</p>
^{pr2}$
<p>这样我就可以很容易很快地找到序列s='w1 w2'的数字:</p>
<pre><code>all[2][s]
</code></pre>
<p>问题是这个存储过程相当慢,尤其是当有大量(大于100k)的n-gram时,我想知道是否有一种更快的方法可以在不降低访问速度的情况下实现相同的结果。我在做一些不太理想的事情吗?我在哪里可以改进?在</p>
<p>提前谢谢你</p>
<p>乔里斯</p>