NLP从tex中提取类别/标签 - 问答 - Python中文网

NLP从tex中提取类别/标签

2024-05-17 11:58:47 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

有没有人有什么想法或者可以告诉我如何从文章中提取类别？在

我所拥有的是几千篇文章（关于体育、新闻、商业等）的语料库。在

例如，如果有一篇关于体育的文章，我想让我的程序知道它是足球还是篮球（或者其他什么东西），那么输出结果会是这样的：

足球90%篮球10%

Tags：程序文章类别新闻商业语料库足球篮球

2条回答

网友

1楼 · 编辑于 2024-05-17 11:58:47

我想你可以使用一些机器学习方法来实现这一点。我想到的是使用tf-idf统计。在

Coursera上有一个名为“Machine Learning Foundations: A Case Study Approach”的在线课程，教你如何在第4周使用tf-idf统计数据。在

网友

2楼 · 编辑于 2024-05-17 11:58:47

由于您没有用于培训的黄金数据，首先您需要创建一些。在

为此，您需要定义您的类并定义一些规则，这些规则是每个类的明显选择

article_text.contains("soccer") 
article_text.contains("Ronaldo")

等等，为每个类创建自己的标记语料库。在

这将不是100%准确的培训数据，但仍足以满足培训目的。在

然后可以使用任何ML算法进行训练和测试。在

相关问题更多 >

编程相关推荐

热门问题

热门文章