使用Witten-Bell平滑法在nltk中使用ngramodel训练和评估二元/三元分布

from nltk.probability import WittenBellProbDist from nltk import NgramModel est = lambda fdist, bins: WittenBellProbDist(fdist) fake_train = [str(t) for t in range(3000)] fake_test = [str(t) for t in range(2900, 3010)] lm = NgramModel(2, fake_train, estimator = est) print lm.entropy(fake_test)

3条回答

网友

1楼 · 编辑于 2024-10-02 06:38:23

2018年12月更新

nltk3.4包含了重新设计的ngram建模模块，可导入为nltk.lm

网友

2楼 · 编辑于 2024-10-02 06:38:23

我会暂时远离NLTK的ngramodel。当前存在一个平滑错误，导致模型在n>；1时大大高估了可能性。这适用于包括WittenBellProbDist和LidstoneProbDist在内的所有估计器。我认为这个错误已经存在了几年了，这表明NLTK的这一部分没有经过很好的测试。在

参见： https://github.com/nltk/nltk/issues/367

网友

3楼 · 编辑于 2024-10-02 06:38:23

它显然是almost 3 years的已知问题。ZeroDivisionError的原因是由于__init__中的以下行

if bins == None: 
    bins = freqdist.B() 
self._freqdist = freqdist 
self._T = self._freqdist.B() 
self._Z = bins - self._freqdist.B()

每当没有指定bins参数时，它默认为None，因此self._Z实际上只是freqdist.B() - freqdist.B()，并且

^{pr2}$

减少到

self._P0 = freqdist.B() / 0.0

另外，如果将bins指定为大于freqdist.B()的任何值，则在执行这行代码时

print lm.entropy(fake_test)

您将收到NotImplementedError，因为在WittenBellProbDist类中

def discount(self): 
    raise NotImplementedError()

显然，discount方法也在NgramModel类的prob和{}中使用，因此您也无法调用它们。在

在不改变NLTK的情况下，解决这些问题的一种方法是从WittenBellProbDist继承并重写相关的方法。在

2018年12月更新

相关问题更多 >

编程相关推荐

热门问题

热门文章