解释分类代表

2024-09-27 22:22:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直致力于用150个文档(100个训练和50个测试)实现KEA监督的关键词提取方法。结果让我有点困惑。这是我的分类报告:

           precision    recall  f1-score   support

      0       0.97      1.00      0.98     29118
      1       0.00      0.00      0.00       951

avg / total       0.94      0.97      0.95     30069

我解释说1从来没有被预测过。你认为这是因为我没有足够的训练数据吗?你知道吗


Tags: 数据方法文档support报告分类关键词precision
1条回答
网友
1楼 · 发布于 2024-09-27 22:22:14

问题不在于你有足够的训练数据,而在于你没有足够的样本来支持类1。
基本上,有几种方法可以解决这个问题:

  • 尝试增加案例1的样本数:最明显的答案也可能不现实,因为您可能会首先从更多的训练数据开始。但也有相关的方法,即
  • 数据扩充(Data augmentation):我不熟悉具体的算法,所以我不能说一般来说有多简单,但您可以添加一些形式的排列示例,这些示例仍然保留了含义(即表示同一类),但不同程度足以作为“另一个训练样本”。
  • 加权类:根据学习算法的具体情况,您通常还可以指定某种形式的类权重,这样您就可以“惩罚”算法错误分类您感兴趣的类。你知道吗

一般来说,这是一个很难完成的任务,你不太可能突然得到更好的结果,但这些肯定会有助于改善你的情况,并帮助你更好地了解你的具体情况中出了什么问题。 另外请注意,您添加的文档、培训程序等信息越多(可能是您正在使用的实现的参考/链接),您就越有可能得到合适的答案。你知道吗

相关问题 更多 >

    热门问题