让我困惑的快速问题。我已经安装了NLTK,它一直运行良好。不过,我试图得到一个语料库的大字集,并希望基本上使用大字集。。但是它说我“从nltk导入bigrams”时没有定义bigrams
三联图也一样。我遗漏了什么吗?另外,我怎样才能从语料库中手动获取大图。
我也在寻找计算大图三联图和四元图的频率,但不确定具体如何进行。
我已经用"<s>"
和"</s>"
标记了语料库,并在开始和结束处进行了适当的标记。到目前为止的计划是:
#!/usr/bin/env python
import re
import nltk
import nltk.corpus as corpus
import tokenize
from nltk.corpus import brown
def alter_list(row):
if row[-1] == '.':
row[-1] = '</s>'
else:
row.append('</s>')
return ['<s>'] + row
news = corpus.brown.sents(categories = 'editorial')
print len(news),'\n'
x = len(news)
for row in news[:x]:
print(alter_list(row))
我在virtualenv中测试过它,它能工作:
这是你唯一的错误吗?
顺便问一下,关于你的第二个问题:
用词:
这种文字分割显然是非常肤浅的,但取决于您的应用程序,它可能就足够了。显然,您可以使用nltk的tokenize,它要复杂得多。
为了完成你的最终目标,你可以这样做:
我删掉了输出,因为它不必要的大,但是你明白了。
相关问题 更多 >
编程相关推荐