python中的文本分类(基于NLTK语句)

2024-10-01 02:29:07 发布

您现在位置:Python中文网/ 问答频道 /正文

我需要对文本进行分类,我使用文本blob python模块来实现它。我对以下几点表示关切。在

1)我需要将句子归类为论点/不是论点。我使用两个分类器并使用apt数据集训练模型。我的问题是我是否需要只使用关键字来训练模型?或者我可以用所有可能的引数和非引数的例句训练数据集?在文本分类的准确性和检索时间方面,哪种方法是最好的?在

2)由于分类是参数/不是参数,哪个分类器可以得到准确的结果?是朴素贝叶斯/决策树/正朴素贝叶斯?在

提前谢谢。在


Tags: 模块数据模型文本参数分类器分类apt
1条回答
网友
1楼 · 发布于 2024-10-01 02:29:07

理想情况下,it is said that the more you train your data, the 'better' your results是,但这实际上取决于你测试了它并将其与你准备的实际结果进行了比较。在

所以为了回答你的问题,用关键字训练模型可能会给你带来太广泛的结果,而这些结果可能不是论据。但实际上,你必须把它和其他东西做比较,所以我建议你也可以用一些论点似乎遵循的句子结构(某种模式)来训练你的模型,它可能会消除那些不是论点的句子结构。同样,做这个,然后测试它,看看你是否得到了比前一个模型更高的精度。在

回答你的下一个问题:在文本分类准确性和检索时间方面,哪种方法是最好的?这取决于你使用的数据,我不能真正回答这个问题,因为你必须执行交叉验证,看看你的模型是否达到了高精度。显然,你寻找的特征越多,你的学习算法的性能就越差。如果要分析的文本是千兆字节,我建议使用Mapreduce来执行这项工作。在

您可能需要检查SVM作为您的学习模型,用学习模型(NaiveBayes、positive NaiveBayes和decision trees)对其进行测试,看看哪一个性能更好。在

希望这有帮助。在

相关问题 更多 >