我刚开始使用TensorFlow和python,需要一些关于如何解决问题的帮助。我想用TensorFlow进行文档分类。我有20种不同的文档分类。作为模特,我认为CNN是我需要的。在
对于培训,我有以下数据集:
图像-->文档的图像
图像的ocr已经完成了,所以我得到了
textdata-->;包含OCR找到的所有单词(单词包?)在
在位置.xml-->;单词的位置,即:
<postion text="This" page="1" left="234" top="250" right="388" bottom="304" TY="0" TX="17" conf="100" />
<postion text="is" page="1" left="505" top="295" right="849" bottom="349" TY="0" TX="37" conf="93" />
<postion text="a" page="1" left="865" top="295" right="997" bottom="338" TY="0" TX="62" conf="100" />
<postion text="test" page="1" left="1425" top="291" right="1752" bottom="333" TY="0" TX="102" conf="100" />
分类-->文档是什么级别(95%正确) 通过人工验证
我至少有20000个数据集,上面所有的信息都在这里给出。在
对于测试,缺少分类数据集。有人能给我一些解决问题的建议吗?我没有写代码,因为我不知道如何从给定的信息开始。在
在很高的层次上,您可以将问题视为监督分类,其中每个文档(示例)与单个类(标签)关联。您的数据集包含大约20k个带标签的示例(还有一些未标记的测试数据)。对于第一个实验,您可以只关注标记的示例,因为它允许您评估分类器。在
有很多关于文档分类的文献,但是既然您想在TF中进行分类,那么就没有什么技巧可以开始了。在
您可以将数据拆分到培训,开发和测试集合中,或者执行交叉验证。对于前者,
tensorflow-datasets
包或简单的tf.data.Dataset
可能会有帮助。至于你的模型,你可以尝试一个简单的单词包,但TF有先进的模型(比如长短期记忆,LSTM)就在你的指尖上。
以下是几个好的起点:
https://www.tensorflow.org/beta/tutorials/load_data/text
tf.data.Dataset
中,这可能不是那么简单,因为本教程在这里没有提供任何快捷方式关于使用预处理数据进行文本分类的教程也可能会有所帮助
如果您想首先将数据转换为
tfds.core.DatasetBuilder
,以便轻松集成,请查看,例如:希望有帮助!在
相关问题 更多 >
编程相关推荐