擅长:python、mysql、java
<p>一旦你用<code>PlaintextCorpusReader</code>定义了你的<code>speeches</code>语料库,你就可以很简单地得到整个语料库的三元组:</p>
<pre><code>fdist = nltk.FreqDist(nltk.trigrams(speeches.words()))
</code></pre>
<p>但这有一个不受欢迎的问题:它形成了从一个文件末尾到下一个文件的三元组。但这样的三元组并不代表可以在文本中互相跟随的标记,它们完全是偶然的。您真正想要的是将每个单独文件中的三元数组合起来,可以这样得到:</p>
^{pr2}$
<p>您的<code>fdist</code>现在包含了累积统计信息,您可以用各种可用的方法检查这些统计信息。E、 g</p>
<pre><code>fdist.tabulate(10)
</code></pre>