用sciki对文本进行分类

class TweetClassifier: classifier = None vect = TfidfVectorizer() tfidf_transformer = TfidfTransformer() #open the classifier saved to disk to be utilized later def openClassifier(self, name): with open(name+'.pkl', 'rb') as fid: return cPickle.load(fid) def __init__(self, classifierName): self.classifier = self.openClassifier(classifierName) self.classifyTweet(np.array([u"Helvetin vittu miksi aina pitää sataa vettä???"])) def classifyTweet(self, tweetText): fitTweetVec = self.vect.fit_transform(tweetText) print self.vect.get_feature_names() X_new_tfidf = self.tfidf_transformer.fit_transform(fitTweetVec) print self.classifier.predict(X_new_tfidf)

1条回答

网友

1楼 · 发布于 2024-10-03 15:27:55

问题是你的分类器是用固定数量的特征（你以前数据的词汇表长度）训练的，现在当你fit_transform新的tweet时，TfidfTransformer将产生一个新的词汇表和一个新的特征，并将在这个空间中表示新的tweet。在

解决方案是同样保存先前安装的TfidfTransformer（它包含旧词汇表），用分类器和.transform（不是{}，因为它已经被拟合到旧数据中）这个相同表示中的新tweet。在

您还可以使用同时包含TfidfTransformer和{}的Pipeline，并对{}进行pickle，这样做比较简单，建议使用。在

相关问题更多 >

编程相关推荐

热门问题

热门文章