本文提出的方法可以在没有在超像素以及低维度的分割的情况下提取图像细节,直接产生一个像素map。
框架主要继承于论文基于多尺度深度网络的单幅图像深度估计。首先我们的模型变得更深了(有了更多的卷积层)。其次,网络添加了第三个等级,将最终的输出分辨率提高到原图的一半(原来是1/4)。最后我们对于前两个等级的输出不固定,从一开始就统一训练三个层级,一起调整参数。
这一层提取全局特征,空间变化的特性对整个图像区域。
在中等分辨率下进行预测,利用损失函数进行sgd优化参数。最后输出的通道数与所对应的任务有关。
将输出提升到更高的分辨率,加入更多的空间细节。
深度预测的损失函数和文章基于多尺度深度网络的单幅图像深度估计中的是一致的。
利用两次SGD,首先训练前两个stage,然后固定这些参数,再训练第三个阶段。