naivebayes的nltk词干和停止词

word_features = list(all_words.keys())[:15000] testing_set = featuresets[10000:] training_set = featuresets[:10000] nbclassifier = nltk.NaiveBayesClassifier.train(training_set) print((nltk.classify.accuracy(nbclassifier, testing_set))*100) nbclassifier.show_most_informative_features(30)

1条回答

网友

1楼 · 发布于 2024-09-30 16:24:22

添加词干或删除停止词可能不会导致您的问题。我想你应该怎么读你的文件。当我在YouTube上关注sentdex's tutorial时，我遇到了同样的错误。我被困了一个小时，但我终于得到了。如果你遵循他的准则，你会发现：

short_pos = open("short_reviews/positive.txt", "r").read()
short_neg = open("short_reviews/negative.txt", "r").read()

documents = []

for r in short_pos.split('\n'):
    documents.append( (r, 'pos' ))

for r in short_neg.split('\n'):
    documents.append( (r, 'neg' ))

all_words = []

short_pos_words = word_tokenize(short_pos)
short_neg_words = word_tokenize(short_neg)

for w in short_pos_words:
    all_words.append(w.lower())

for w in short_neg_words:
    all_words.append(w.lower())

all_words = nltk.FreqDist(all_words)
word_features = list(all_words.keys())[:5000]

我一直遇到这样的错误： UnicodeDecodeError: 'utf-8' codec can't decode byte 0x97 in position 6056: invalid start byte。出现此错误是因为files provided中有非UTF-8字符。我可以通过将代码改为以下代码来避免错误：

^{pr2}$

不幸的是，我开始得到这个错误： UnicodeError: UTF-16 stream does not start with BOM

我忘了怎么做，但我也让这个错误消失了。然后我开始得到和你最初的问题一样的错误： ValueError: Sample sequence X is empty. 当我打印出featuresets的长度时，我看到它只有2。在

print("Feature sets list length : ", len(featuresets))

在这个网站上挖掘之后，我发现了以下两个问题：

第一个没什么用，但第二个解决了我的问题（注意：我使用的是python-3）。在

我不是一句一句的，但这对我很有效：

pos_lines = [line.rstrip('\n') for line in open('short_reviews/positive.txt', 'r', encoding='ISO-8859-1')]

如果您希望看到完整的解决方案，我将在本周晚些时候用nlp教程的完整代码更新my github repo。我知道这个答案可能来得太晚了两年，但希望它能有所帮助。在

相关问题更多 >

编程相关推荐

热门问题

热门文章