我有一个分类任务,在这个任务中,我试图根据文档图像识别(比如)一个“应用程序”是否通过/失败。一个应用程序可以有一个或多个文档,而不是对单个图像进行分类。数据如下所示:
Application_1 (PASS)
- document1.jpg
- document2.png
Application_2 (PASS)
- document1.jpg
Application_3 (FAIL)
- document1.jpg
- document2.jpg
- document3.jpg
- document4.jpg
每个应用程序都有一个基于文档内容的合格/不合格标签,例如,护照本身可以通过,许可证+推荐信可以通过,但许可证本身不能通过
我有基于文档文本的分类器,但图像内容很重要。有没有可能训练一个CNN,它的输入是任意数量的图像,而不是单个图像
当然。一种可能是简单地将图像文件连接成一个文件。另一个是调整输入层以接受所有四个文件。您必须配置CNN拓扑,以处理输入层提供的各种形状的数据
从概念上讲,这与编写CNN的摄取层来处理单个图像几乎没有什么不同,但大小不同
为什么不一次(一批)处理一个图像,记录它们的分数,然后对它们进行平均(或任何其他适合您的算法),以获得文档的最终分数
这将需要更少/无需重新设计模型,几乎不需要新的培训
相关问题 更多 >
编程相关推荐