十位数文档分类 - 问答 - Python中文网

十位数文档分类

2024-09-23 22:25:55 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我刚开始使用TensorFlow和python，需要一些关于如何解决问题的帮助。我想用TensorFlow进行文档分类。我有20种不同的文档分类。作为模特，我认为CNN是我需要的。在

对于培训，我有以下数据集：

图像-->文档的图像

图像的ocr已经完成了，所以我得到了

textdata-->；包含OCR找到的所有单词（单词包？）在

在位置.xml-->；单词的位置，即：

<postion text="This" page="1" left="234" top="250" right="388" bottom="304" TY="0" TX="17" conf="100" /> <postion text="is" page="1" left="505" top="295" right="849" bottom="349" TY="0" TX="37" conf="93" /> <postion text="a" page="1" left="865" top="295" right="997" bottom="338" TY="0" TX="62" conf="100" /> <postion text="test" page="1" left="1425" top="291" right="1752" bottom="333" TY="0" TX="102" conf="100" />

分类-->文档是什么级别（95%正确）通过人工验证

我至少有20000个数据集，上面所有的信息都在这里给出。在

对于测试，缺少分类数据集。有人能给我一些解决问题的建议吗？我没有写代码，因为我不知道如何从给定的信息开始。在

Tags：数据 text 文档图像 right conf top page

1条回答

网友

1楼 · 发布于 2024-09-23 22:25:55

在很高的层次上，您可以将问题视为监督分类，其中每个文档（示例）与单个类（标签）关联。您的数据集包含大约20k个带标签的示例（还有一些未标记的测试数据）。对于第一个实验，您可以只关注标记的示例，因为它允许您评估分类器。在

有很多关于文档分类的文献，但是既然您想在TF中进行分类，那么就没有什么技巧可以开始了。在

您可以将数据拆分到培训，开发和测试集合中，或者执行交叉验证。对于前者，tensorflow-datasets包或简单的tf.data.Dataset可能会有帮助。
至于你的模型，你可以尝试一个简单的单词包，但TF有先进的模型（比如长短期记忆，LSTM）就在你的指尖上。

以下是几个好的起点：

https://www.tensorflow.org/beta/tutorials/load_data/text
- 基本上是问题的答案；您只需将数据加载到tf.data.Dataset中，这可能不是那么简单，因为本教程在这里没有提供任何快捷方式
关于使用预处理数据进行文本分类的教程也可能会有所帮助
- https://www.tensorflow.org/beta/tutorials/keras/basic_text_classification
如果您想首先将数据转换为tfds.core.DatasetBuilder，以便轻松集成，请查看，例如：
- https://github.com/tensorflow/datasets/blob/master/tensorflow_datasets/text/imdb.py（但如果您缺乏TF的经验，这是相当先进的）

希望有帮助！在

相关问题更多 >

编程相关推荐

热门问题

热门文章