十位数文档分类

2024-09-23 22:25:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我刚开始使用TensorFlow和python,需要一些关于如何解决问题的帮助。我想用TensorFlow进行文档分类。我有20种不同的文档分类。作为模特,我认为CNN是我需要的。在

对于培训,我有以下数据集:

图像-->文档的图像

图像的ocr已经完成了,所以我得到了

textdata-->;包含OCR找到的所有单词(单词包?)在

在位置.xml-->;单词的位置,即:

<postion text="This" page="1" left="234" top="250" right="388" bottom="304" TY="0" TX="17" conf="100" /> <postion text="is" page="1" left="505" top="295" right="849" bottom="349" TY="0" TX="37" conf="93" /> <postion text="a" page="1" left="865" top="295" right="997" bottom="338" TY="0" TX="62" conf="100" /> <postion text="test" page="1" left="1425" top="291" right="1752" bottom="333" TY="0" TX="102" conf="100" />

分类-->文档是什么级别(95%正确) 通过人工验证

我至少有20000个数据集,上面所有的信息都在这里给出。在

对于测试,缺少分类数据集。有人能给我一些解决问题的建议吗?我没有写代码,因为我不知道如何从给定的信息开始。在


Tags: 数据text文档图像rightconftoppage
1条回答
网友
1楼 · 发布于 2024-09-23 22:25:55

在很高的层次上,您可以将问题视为监督分类,其中每个文档(示例)与单个类(标签)关联。您的数据集包含大约20k个带标签的示例(还有一些未标记的测试数据)。对于第一个实验,您可以只关注标记的示例,因为它允许您评估分类器。在

有很多关于文档分类的文献,但是既然您想在TF中进行分类,那么就没有什么技巧可以开始了。在

  • 您可以将数据拆分到培训开发测试集合中,或者执行交叉验证。对于前者,tensorflow-datasets包或简单的tf.data.Dataset可能会有帮助。

  • 至于你的模型,你可以尝试一个简单的单词包,但TF有先进的模型(比如长短期记忆,LSTM)就在你的指尖上。

以下是几个好的起点:

希望有帮助!在

相关问题 更多 >