快捷搜索:  汽车  科技

深度学习网络特征提取优点:期刊分享深度学习

深度学习网络特征提取优点:期刊分享深度学习二、相关工作本文方法在所有现有数据集上获得了state-of-the-art的性能,是2016ImageNet场景解析的冠军、在PASCAL VOC2012语意分割排名第一、在Cityscape数据集排名第一。这说明PSPNet为像素级预测任务指明了方向,有可能用于基于CNN的双目匹配、光流、深度估计等到。本文主要贡献为:(1)提出的PSPNet在基于FCN像素预测框架下嵌入了场景上下文特征;(2)提出了一种基于深度监督损失的深度ResNet高效优化策略;(3)构建了state-of-the-art场景解析和语意分割系统,并详细阐述了所有关键部署。场景解析难点在于场景和标签的多样性。LMO数据集包括2688张图像共33类,PASCAL VOC语意分割和PASCAL上下文数据集包括相似内容的更多标签,如椅子和沙发、牛和马等;ADE20K数据集是最具挑战性的,包括非常大且没有约束的开放词库和更

编者序:本文是2017年发表的PSPNet,在三个非常有挑战性的数据集上压倒性的超过了现有方法,获得了2016ImageNet场景解析竞赛的冠军,是目前语意分割和场景解析的state-of-the-art算法,非常不错,读者可下载开源代码验证效果。


推荐指数☆☆☆☆☆


一、引言

基于语意分割的场景解析(scene parsing)是计算机视觉领域的一个基本话题,目标是赋予图像中的每个像素一个分类标签。场景解析提供了对场景的完整理解,预测了每个元素的标签、位置及形状,在自动驾驶、机器人感知等潜在应用中引起极大兴趣。

场景解析难点在于场景和标签的多样性。LMO数据集包括2688张图像共33类,PASCAL VOC语意分割和PASCAL上下文数据集包括相似内容的更多标签,如椅子和沙发、牛和马等;ADE20K数据集是最具挑战性的,包括非常大且没有约束的开放词库和更多的场景分类,一些有代表性的图像如下图所示。开发这些数据集上的有效算法需要克服很多苦难。

深度学习网络特征提取优点:期刊分享深度学习(1)

精确场景感知的知识图谱依赖于场景上下文先验信息,我们发现目前FCN方法最大的问题是缺乏使用全局场景分类线索的合适策略。对典型的场景理解,在获取全局图像级特征之前,广泛使用空域金字塔池化,空域统计提供了对整个场景预测的很好描述。

与这些方法不同,为利用合适的全局特征,我们提出了金字塔场景解析网络(pyramid scene parsing network,PSPNet)。除了用于像素预测的传统FCN,我们将像素级特征扩展到特殊设计的全局金字塔池化中,并联合使用局部和全局线索使得最终预测更可靠,同时提出了一种深度监督损失的优化策略。

本文方法在所有现有数据集上获得了state-of-the-art的性能,是2016ImageNet场景解析的冠军、在PASCAL VOC2012语意分割排名第一、在Cityscape数据集排名第一。这说明PSPNet为像素级预测任务指明了方向,有可能用于基于CNN的双目匹配、光流、深度估计等到。本文主要贡献为:(1)提出的PSPNet在基于FCN像素预测框架下嵌入了场景上下文特征;(2)提出了一种基于深度监督损失的深度ResNet高效优化策略;(3)构建了state-of-the-art场景解析和语意分割系统,并详细阐述了所有关键部署。

二、相关工作

下面我们简述下在场景解析和语意分割方面的最近进展,通过将分类中的全连接层替换为卷积层,强大的深度神经网络在像素级预测任务中已经应用且效果良好。为了增大神经网络的接收域而使用扩大的卷积,Noh等人提出了由粗到细解卷积网络结构学习分割模板,我们的对比网络是FCN和dilated网络。

其它工作主要分为两个方向:一个方向是使用多尺度特征组合,因为在深度网络中高层特征包括更多的语义而更少的位置信息,联合多尺度特征可提高性能;另一个方向是基于结构预测,比如使用条件随机场或端到端网络后处理以调整分割结果。这两个方向都改良了场景解析的定位能力。然而复杂场景下还有很多可探索的必要信息。

为充分利用全局图像级先验信息,一些方法使用传统特征而不是深度神经网络提取全局上下文信息。Liu等人证明了带有全局平均池化的FCN可提高语义分割结果,然而我们实验实验表明这些全局描述子在ADE20K数据集上表征的并不够,因此我们通过PSPNet提取不同区域上下文信息以提高全局上下文信息的能力。

三、PSPNet

我们首先分析FCN表征失败的情况,这也是提出金字塔池化模块作为有效全局上下文先验信息的动机,我们提出的PSPNet如下图所示。

深度学习网络特征提取优点:期刊分享深度学习(2)

3.1 重要现象

新的ADE20K数据集包括150类1038张图片级场景描述,根据FCN预测结果,我们总结出复杂场景解析的一些规律。

错误匹配关系:上下文关系是普遍存在的,对复杂场景理解尤其重要。存在共生视觉模式,如飞机可能在天空飞或在跑道上,而不可能在路上。缺乏收集上下文信息的能力会增加错误分类的概率。

混乱的类别:许多分类标签是混乱的,如mountain和hill,外观类似,可利用类别间的关系改正问题。

不显眼类:场景包括任意尺寸的目标,一些路灯等小物体很难发现却非常重要,相反较大的物体可能超过FCN的感受野而产生不连续预测。为提高极大极小物体分类,需要注意包含不显眼分类特征的不同子区域

3.2 金字塔池化模块

在深度神经网络中,感受野尺寸大体上能显示我们利用的上下文信息的多少。尽管理论表明ResNet的感受野已经比输入图像大了,但Zhou等人发现CNN的实际感受野远小于理论感受野,尤其在高层网络中。这使得许多网络不能充分利用重要的全局场景先验信息,为此我们提出了一种有效的全局先验信息表征方法。

全局平均池化是很好的模型,已经用于图像分类、语意分割中,但对于像ADE20K数据集的复杂场景,该策略并不足以覆盖所需的信息。这些场景中的像素表征了许多目标,直接将它们融合到一个向量中会损失空间关系并引起模糊。子区域上下文和全局上下文信息有助于分类,一种更强大的表征应该能够从不同感受野子区域融合信息。

已有文献将金字塔池化生成的不同层的特征图flatten后连接到全连接网络用于分类,这种全局先验信息用于去除CNN图像分类的固定尺寸约束。为进一步减少不同子区域的上下文信息损失,我们提出了层次全局先验,使用了不同尺度和随子区域变化包含信息,我们将它称为金字塔池化模块,用于在最后一层特征图之上的全局场景先验信息重建。

金字塔池化模块融合了4种不同金字塔尺度的特征。为维持全局特征权值,我们在每个金字塔层后使用1×1卷积层降低上下文表征维数到1/N,其中N为金字塔层数,然后通过双线性插值直接升采样低维特征图获得与原始特征图同样尺寸的特征,最后连接不同层次的特征作为最终金字塔池化全局特征。

值得注意的是,金字塔层数和每层尺寸可以更改,它们与输入金字塔池化层的特征图尺寸有关,该结构使用不同尺寸池化核提取不同子区域。我们使用的金字塔池化模块4层分别为1×1、2×2、3×3、6×6。

3.2 网络结构

给定输入图像,使用预先训练的ResNet提取特征图,最后的特征图尺寸是输入图像的1/8,然后使用金字塔池化模块收集上下文信息,然后将先验信息连接后输入卷积层生成最后的预测图。金字塔池化模块比全局池化收集更有层次表征能力更强的特征,而就计算量而言,PSPNet并没有比FCN多多少。通过端到端学习,全局金字塔池化模块和局部FCN特征能同时被优化。

四、深度监督训练

预训练的深度网络性能很好,然而增加深度可能导致额外的优化难度。ResNet通过每个模块的跨层连接解决该问题,后一层主要学习前面层的残差。相反,我们提出了通过额外损失监督生成初始结果,然后利用最终损失学习残差。这样,将网络优化分解为两个简单易解决的问题。

深度监督ResNet101的例子如下图所示,除了使用softmax损失训练最终分类器的主线,第4阶段后使用了另一个分类器,并且让两个损失函数后向传播到前面所有层。辅助损失有助于优化过程,而主线损失负主要责任,我们增加了平衡辅助损失的权值。在训练阶段,我们去除该辅助分支而仅使用优化后的主线预测。

深度学习网络特征提取优点:期刊分享深度学习(3)

五、实验

5.1 ImageNet 2016场景解析竞赛

在ADE20K数据集上,使用20k图像训练,2k图像验证,3k图像测试,评估指标使用像素级精度Pixel Acc和平均分类联合交叉Mean IoU。不同组合的本文算法结果如下图所示。主要结论如下:平均池化比最大池化效果好,金字塔池化比全局池化效果好,本文算法超过了state-of-the-art;辅助损失权重为0.4时取得了最优结果;层数越多,效果越好。

深度学习网络特征提取优点:期刊分享深度学习(4)

深度学习网络特征提取优点:期刊分享深度学习(5)

深度学习网络特征提取优点:期刊分享深度学习(6)

深度学习网络特征提取优点:期刊分享深度学习(7)

深度学习网络特征提取优点:期刊分享深度学习(8)

使用该网络,最终在ImageNet场景解析竞赛中获得了第一,最终的排名及验证集上结果如下图所示。

深度学习网络特征提取优点:期刊分享深度学习(9)

深度学习网络特征提取优点:期刊分享深度学习(10)

5.2 PASCAL VOC 2012

在语义分割数据集PASCAL VOC 2012上,实验结果如下图所示,PSPNet超过了所有方法。

深度学习网络特征提取优点:期刊分享深度学习(11)

深度学习网络特征提取优点:期刊分享深度学习(12)

深度学习网络特征提取优点:期刊分享深度学习(13)

5.3 Cityscapes

PSPNet优于其它方法,如下图所示。

深度学习网络特征提取优点:期刊分享深度学习(14)

深度学习网络特征提取优点:期刊分享深度学习(15)

深度学习网络特征提取优点:期刊分享深度学习(16)



英文名称:Pyramid Scene Parsing Network

链接:https://arxiv.org/pdf/1612.01105.pdf

源码:https://github.com/hszhao/PSPNet


死磕自律,遇见更好的自己;自斩双臂,方能长出强两翼。

败而不弃,潜龙勿用待时机;执着坚毅,飞升上神创奇迹!


关注该公众号,一起创造奇迹。

猜您喜欢: