基于深度学习的NYUv2数据集的单眼图像深度预测

2024-06-28 15:19:21 发布

您现在位置:Python中文网/ 问答频道 /正文

最近我正在研究一个利用深度学习从单目图像获取深度的研究问题。使用rguvi数据设置nyuvi 2。我使用了VGGNet-16网络,并根据VGGNet的要求修改了我的输入。我的初始数据集被用作RMSE的初始数据集2300.00。然而,这一领域的研究论文大多表明RMSE在0.6-0.9之间(虽然数据集相同,但每个论文使用的图像子集不同)。其中一篇论文最近发表在CVPR上。所以我对我获得RMSE的方法持怀疑态度。我使用keras进行深度学习,并使用theano作为后端。下面是我在keras中的RMSE代码片段:

代码1:

from keras import backend as K                
def custom_rmse(y_true,y_pred):            
temp = K.mean(K.square(abs(y_pred - y_true)), axis=-1)  
    return K.sqrt(temp)   

一些研究论文提到不考虑目标深度图像中的零像素值。因此,我还为RMSE编写了修改后的代码,如下所示:

^{pr2}$

但在这两种情况下,结果几乎保持(0.11-0.20)不变。我还尝试了不同的图像子集。甚至我也试过用200个时代的122000张图片。我得到的RMSE仍然是0.19。在

请建议如何处理这个问题?在


Tags: 数据代码图像网络true利用temp子集