文本分类。TFIDF和NaiveBayes？ - 问答 - Python中文网

文本分类。TFIDF和NaiveBayes？

2024-09-28 21:33:00 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试一个文本分类任务，其中我有大约500个餐厅评论的培训数据，这些评论被标记为12个类别。我花了太多的时间来实施TF.IDF公司而余弦相似度对于测试数据的分类，只得到一些很差的结果（0.4f-测度）。现在时间不在我这边，我需要实施一些更有效的方法，而不是一个陡峭的学习曲线。我正在考虑使用TF.IDF公司值与朴素的Bayes相结合。这听起来明智吗？我知道如果我能以正确的格式获取数据，我可以使用Scikit learn来完成这项工作。你还有什么建议我考虑的吗？在

谢谢。在

Tags：数据方法标记文本 tf 时间评论分类

1条回答

网友

1楼 · 发布于 2024-09-28 21:33:00

您应该尝试使用fasttext:https://pypi.python.org/pypi/fasttext。它可用于对文本进行如下分类：

（如果不是英语，请不要忘记在此处下载经过预训练的模型https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki.en.zip更改语言）

import fasttext

model = fasttext.load_model('wiki.en.bin')  # the name of the pretrained model

classifier = fasttext.supervised('train.txt', 'model', label_prefix='__label__')

result = classifier.test('test.txt')
print ('P@1:', result.precision)
print ('R@1:', result.recall)
print ('Number of examples:', result.nexamples)

训练和测试集中的每一行都应该这样：

__label__classname Your restaurant review blah blah blah

相关问题更多 >

编程相关推荐

热门问题

热门文章