2024-05-17 11:58:47 发布
网友
有没有人有什么想法或者可以告诉我如何从文章中提取类别?在
我所拥有的是几千篇文章(关于体育、新闻、商业等)的语料库。在
例如,如果有一篇关于体育的文章,我想让我的程序知道它是足球还是篮球(或者其他什么东西),那么输出结果会是这样的:
足球90%篮球10%
我想你可以使用一些机器学习方法来实现这一点。我想到的是使用tf-idf统计。在
Coursera上有一个名为“Machine Learning Foundations: A Case Study Approach”的在线课程,教你如何在第4周使用tf-idf统计数据。在
tf-idf
由于您没有用于培训的黄金数据,首先您需要创建一些。在
为此,您需要定义您的类并定义一些规则,这些规则是每个类的明显选择
article_text.contains("soccer") article_text.contains("Ronaldo")
等等,为每个类创建自己的标记语料库。在
这将不是100%准确的培训数据,但仍足以满足培训目的。在
然后可以使用任何ML算法进行训练和测试。在
我想你可以使用一些机器学习方法来实现这一点。我想到的是使用tf-idf统计。在
Coursera上有一个名为“Machine Learning Foundations: A Case Study Approach”的在线课程,教你如何在第4周使用
tf-idf
统计数据。在由于您没有用于培训的黄金数据,首先您需要创建一些。在
为此,您需要定义您的类并定义一些规则,这些规则是每个类的明显选择
等等,为每个类创建自己的标记语料库。在
这将不是100%准确的培训数据,但仍足以满足培训目的。在
然后可以使用任何ML算法进行训练和测试。在
相关问题 更多 >
编程相关推荐