NLP从tex中提取类别/标签

2024-05-17 11:58:47 发布

您现在位置:Python中文网/ 问答频道 /正文

有没有人有什么想法或者可以告诉我如何从文章中提取类别?在

我所拥有的是几千篇文章(关于体育、新闻、商业等)的语料库。在

例如,如果有一篇关于体育的文章,我想让我的程序知道它是足球还是篮球(或者其他什么东西),那么输出结果会是这样的:

足球90%篮球10%


Tags: 程序文章类别新闻商业语料库足球篮球
2条回答

我想你可以使用一些机器学习方法来实现这一点。我想到的是使用tf-idf统计。在

Coursera上有一个名为“Machine Learning Foundations: A Case Study Approach”的在线课程,教你如何在第4周使用tf-idf统计数据。在

由于您没有用于培训的黄金数据,首先您需要创建一些。在

为此,您需要定义您的类并定义一些规则,这些规则是每个类的明显选择

article_text.contains("soccer") 
article_text.contains("Ronaldo") 

等等,为每个类创建自己的标记语料库。在

这将不是100%准确的培训数据,但仍足以满足培训目的。在

然后可以使用任何ML算法进行训练和测试。在

相关问题 更多 >