我正在研究一个问题,这个问题需要我建立一个深度学习模型,基于某个输入图像,它必须输出另一个图像。值得注意的是,这两个图像在概念上是相关的,但它们的维度不同。在
起初,我认为一个经典的CNN,其最终密集层的参数是输出图像的高度和宽度的乘积,这很适合这种情况,但是当训练时,它给出的是奇怪的数字,比如精度为0。在
在互联网上寻找答案的时候,我发现了CNN自动编码器的概念,我想知道这种方法是否可以帮助我解决问题。在我看到的所有示例中,自动编码器的输入和输出的大小和尺寸都是相同的。在
在这一点上,我想问是否有一种CNN自动编码器可以产生与输入图像不同维度的输出图像。在
自动编码器(AE)是一种架构,它试图通过学习同时从这种表示中重构数据,将图像编码成低维表示。因此,不良事件依赖于一个无监督的(不需要标签)数据,它既是输入又是目标(用于损失)。在
您可以尝试为您的用例使用基于U-net的体系结构。U-net会将中间数据表示转发给网络的后续层,这将有助于更快地学习/映射输入到新域。。在
您还可以尝试使用一个简单的体系结构,该体系结构包含几个ResNet块,而没有任何下采样层,这对于您的用例来说可能不够。在
如果你想深入一点,你可以看看迪斯科甘和相关的方法。他们显式地尝试在维护图像信息的同时将图像映射到新的域中。在
相关问题 更多 >
编程相关推荐