基于NLTK朴素贝叶斯分类的情感分类

import nltk.classify.util,os,sys; from nltk.classify import NaiveBayesClassifier; from nltk.corpus import stopwords; from nltk.tokenize import word_tokenize,RegexpTokenizer; import re; TAG_RE = re.compile(r'<[^>]+>') def remove_tags(text): return TAG_RE.sub('', text) def word_feats(words): return dict([(word,True) for word in words]) def feature_extractor(sentiment): path = "train/"+sentiment+"/" files = os.listdir(path); feats = {}; i = 0; for file in files: f = open(path+file,"r", encoding='utf-8'); review = f.read(); review = remove_tags(review); stopWords = (stopwords.words("english")) tokenizer = RegexpTokenizer(r"\w+"); tokens = tokenizer.tokenize(review); features = word_feats(tokens); feats.update(features) return feats; posative_feat = feature_extractor("pos"); p = open("posFeat.txt","w", encoding='utf-8'); p.write(str(posative_feat)); negative_feat = feature_extractor("neg"); n = open("negFeat.txt","w", encoding='utf-8'); n.write(str(negative_feat)); plength = int(len(posative_feat)*3/4); nlength = int(len(negative_feat)*3/4) totalLength = plength+nlength; trainFeatList = {} testFeatList = {} i = 0 for items in posative_feat.items(): i +=1; value = {items[0]:items[1]} if(i<plength): trainFeatList.update(value); else: testFeatList.update(value); j = 0 for items in negative_feat.items(): j +=1; value = {items[0]:items[1]} if(j<plength): trainFeatList.update(value); else: testFeatList.update(value); classifier = NaiveBayesClassifier.train(trainFeatList) print(nltk.classify.util.accuracy(classifier,testFeatList)); classifier.show_most_informative_features();

1条回答

网友

1楼 · 发布于 2024-10-17 06:29:55

看一下NLTK页面http://www.nltk.org/book/ch06.html，似乎给NaiveBayesClassifier的数据属于{}类型，而传递给分类器的数据是list(dict)类型。在

如果以类似的方式表示数据，则会得到不同的结果。基本上，它是一个(feature dict, label)的列表。在

代码中有多个错误：

Python不使用分号作为行尾
True布尔值在第12行似乎没有作用
trainFeatList和{}应该是列表
特性项列表中的每个value应该是tuple(dict,str)
为列表中的要素指定标签（在（4）中）
将NaiveBayesClassifier，以及classifier的任何使用从负特性循环中取出

如果您修复了前面的错误，分类器就可以工作了，但是除非我知道您要实现什么，否则会令人困惑，并且无法很好地预测。在

您需要注意的主线是当您为变量value赋值时。在

例如：

value = {items[0]:items[1]}

应该是这样的：

^{pr2}$

然后，您将调用列表中的.append()来添加每个值，而不是.update()。在

您可以在http://pastebin.com/91Zu59Cm上查看更新后的代码在错误工作状态下的示例，但我建议您考虑以下几点：

应该如何表示NaiveBayesClassifier类的数据？在
你想捕捉什么特征？在
哪些标签与这些特征相关？在

相关问题更多 >

编程相关推荐

热门问题

热门文章