文本分类。TFIDF和NaiveBayes?

2024-09-28 21:33:00 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试一个文本分类任务,其中我有大约500个餐厅评论的培训数据,这些评论被标记为12个类别。我花了太多的时间来实施TF.IDF公司而余弦相似度对于测试数据的分类,只得到一些很差的结果(0.4f-测度)。现在时间不在我这边,我需要实施一些更有效的方法,而不是一个陡峭的学习曲线。我正在考虑使用TF.IDF公司值与朴素的Bayes相结合。这听起来明智吗?我知道如果我能以正确的格式获取数据,我可以使用Scikit learn来完成这项工作。你还有什么建议我考虑的吗?在

谢谢。在


Tags: 数据方法标记文本tf时间评论分类
1条回答
网友
1楼 · 发布于 2024-09-28 21:33:00

您应该尝试使用fasttext:https://pypi.python.org/pypi/fasttext。它可用于对文本进行如下分类:

(如果不是英语,请不要忘记在此处下载经过预训练的模型https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.en.zip更改语言)

import fasttext

model = fasttext.load_model('wiki.en.bin')  # the name of the pretrained model

classifier = fasttext.supervised('train.txt', 'model', label_prefix='__label__')

result = classifier.test('test.txt')
print ('P@1:', result.precision)
print ('R@1:', result.recall)
print ('Number of examples:', result.nexamples)

训练和测试集中的每一行都应该这样:

__label__classname Your restaurant review blah blah blah

相关问题 更多 >