擅长:python、mysql、java
<p><a href="http://www-i6.informatik.rwth-aachen.de/publications/download/951/Kneser-ICASSP-1995.pdf" rel="nofollow">Kneser-Ney</a>(也可以查看一下<a href="http://www2.denizyuret.com/ref/goodman/chen-goodman-99.pdf" rel="nofollow">Goodman and Chen</a>,了解不同的平滑技术)是一个相当复杂的平滑,只有少数几个包我知道它是正确的。不知道任何python实现,但如果您只需要概率等,您绝对可以尝试<a href="http://www.speech.sri.com/projects/srilm/" rel="nofollow">SRILM</a></p>
<ul>
<li>很有可能你的样本中有一些在训练数据中没有出现的单词(也就是词汇表外的单词),如果处理不当,这些单词可能会扰乱你得到的概率。也许这会导致异常大而无效的prob?</li>
</ul>