Python中文
首页
教程
问答
标签
搜索
登录
注册
使用Witten-Bell平滑法在nltk中使用ngramodel训练和评估二元/三元分布
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我想用一组句子训练一个ngram模型,使用Witten-Bell平滑来估计看不见的ngram,然后用它来得到由该分布生成的测试集的对数可能性。我想做与这里的文档示例中几乎相同的事情:<a href="http://nltk.org/_modules/nltk/model/ngram.html" rel="nofollow">http://nltk.org/_modules/nltk/model/ngram.html</a>,但是使用的是Witten-Bell平滑。下面是一些关于我想做的事情的玩具代码:</p> <pre><code>from nltk.probability import WittenBellProbDist from nltk import NgramModel est = lambda fdist, bins: WittenBellProbDist(fdist) fake_train = [str(t) for t in range(3000)] fake_test = [str(t) for t in range(2900, 3010)] lm = NgramModel(2, fake_train, estimator = est) print lm.entropy(fake_test) </code></pre> <p>不幸的是,当我尝试运行它时,我得到以下错误:</p> ^{pr2}$ <p>是什么导致了这个错误?据我所知,根据文档,我使用的一切都是正确的,当我使用Lidstone而不是Witten Bell时,这一切都很好。在</p> <p>作为第二个问题,我有一些不连贯句子的数据。我怎样才能像字符串列表一样使用这些句子,或者做一些类似的事情来产生相同的分布呢?(也就是说,我当然可以使用一个包含所有句子的列表,并用一个虚拟标记分隔后面的句子,但这不会产生相同的分布。)一个地方的文档说允许使用字符串列表,但后来我发现了一个bug报告,其中文档被假定是被编辑的,以反映这是不允许的(当我尝试一个字符串列表时,我得到了一个错误)。在</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<h2>2018年12月更新</h2> <p>nltk3.4包含了重新设计的ngram建模模块,可导入为<code>nltk.lm</code></p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
当用户用PYTHON设置一个或一个不带值的URL时,他们怎么能输入一个/a的代码呢?
5 回答
当用户登录到站点时,如何显示不同的导航栏
7 回答
当用户登录时,在Flask中向用户显示处理结果
3 回答
当用户的Flask会话结束时,我如何从Redis后端中移除所有Celery结果?
8 回答
当用户的Okta配置文件字段当前为blan时,更新该字段
2 回答
当用户的付款逾期2天时,从Django模型检索数据
7 回答
当用户的消息以问号结尾时,如何让机器人说些什么?
10 回答
当用户的系统上可能也安装了Python 2.7时,如何在用户的系统上运行Python 3脚本?
5 回答
当用户确定打印数量时,使用Matplotlib打印动画
8 回答
当用户离开时是否可以删除整个网页?
9 回答
当用户给出一个单词时如何打印?
10 回答
当用户继续更改TKin中的值(使用trace方法)时,使用Entry并更新输入的条目
1 回答
当用户编辑表单字段时,从Django时间字段中删除秒数
4 回答
当用户被更改时,消息不会来自web套接字
5 回答
当用户访问表单时,如何使表单为只读,而不具有更改权限
8 回答
当用户试图更改对象的值时,使用描述符类引发RuntimeError
5 回答
当用户调整GUI的大小时,是否有方法更改GUI内容的大小?
1 回答
当用户调整风的大小时,pythontkinter小部件的大小会不均匀
10 回答
当用户购买某个类别时,是否查找其他类别的销售?
7 回答
当用户转到上一页时,Django和芹菜插入操作
5 回答