语义分割是怎么训练的?语义分割的入坑指南和最新进展都是什么样的
语义分割是怎么训练的?语义分割的入坑指南和最新进展都是什么样的这篇论文的主要贡献如下:在 PASCAL VOC 的分割基准测试中,这个模型高于 70% 的交并比(IOU)接下来,我们将会回顾一些构建语义分割模型的最先进的方法的研究论文,它们分别是:1. Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation (ICCV 2015)这篇论文提出了一个解决方法,主要面对处理深度卷积网络中的弱标签数据,以及具有良好标签和未被合适标记得数据的结合时的挑战。在这篇论文结合了深度卷积网络和全连接条件随机场。
语义分割指的是将图像中的每一个像素关联到一个类别标签上的过程,这些标签可能包括一个人、一辆车、一朵花、一件家具等等。在这篇文章中,作者介绍了近来优秀的语义分割思想与解决方案,它可以称得上是 2019 语义分割指南了。我们可以认为语义分割是像素级别的图像分类。例如,在一幅有很多辆车的图像中,分割模型将会把所有的物体(车)标记为车辆。但是,另一种被称为实例分割的模型能够将出现在图像中的独立物体标记为独立的实例。这种分割在被用在统计物体数量的应用中是很有用的(例如,统计商城中的客流量)。
语义分割的一些主要应用是自动驾驶、人机交互、机器人以及照片编辑/创作型工具。例如,语义分割在自动驾驶和机器人领域是十分关键的技术,因为对于这些领域的模型来说,理解它们操作环境的上下文是非常重要的。
图片来源:
http://www.cs.toronto.edu/~tingwuwang/semantic_segmentation.pdf
接下来,我们将会回顾一些构建语义分割模型的最先进的方法的研究论文,它们分别是:
- Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation
- Fully Convolutional Networks for Semantic Segmentation
- U-Net: Convolutional Networks for Biomedical Image Segmentation
- The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation
- Multi-Scale Context Aggregation by Dilated Convolutions
- DeepLab: Semantic Image Segmentation with Deep Convolutional Nets Atrous Convolution and Fully Connected CRFs
- Rethinking Atrous Convolution for Semantic Image Segmentation
- Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
- FastFCN: Rethinking Dilated Convolution in the Backbone for Semantic Segmentation
- Improving Semantic Segmentation via Video Propagation and Label Relaxation
- Gated-SCNN: Gated Shape CNNs for Semantic Segmentation
1. Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation (ICCV 2015)
这篇论文提出了一个解决方法,主要面对处理深度卷积网络中的弱标签数据,以及具有良好标签和未被合适标记得数据的结合时的挑战。在这篇论文结合了深度卷积网络和全连接条件随机场。
- 论文地址:https://arxiv.org/pdf/1502.02734.pdf
在 PASCAL VOC 的分割基准测试中,这个模型高于 70% 的交并比(IOU)
这篇论文的主要贡献如下:
- 为边界框或图像级别的训练引入 EM 算法,这可以用在弱监督和半监督环境中。
- 证明了弱标注和强标注的结合能够提升性能。在合并了 MS-COCO 数据集和 PASCAL 数据集的标注之后,论文的作者在 PASCAL VOC 2012 上达到了 73.9% 的交并比性能。
- 证明了他们的方法通过合并了少量的像素级别标注和大量的边界框标注(或者图像级别的标注)实现了更好的性能。
2. Fully Convolutional Networks for Semantic Segmentation (PAMI 2016)
这篇论文提出的模型在 PASCAL VOC 2012 数据集上实现了 67.2% 的平均 IoU。全连接网络以任意大小的图像为输入,然后生成与之对应的空间维度。在这个模型中,ILSVRC 中的分类器被丢在了全连接网络中,并且使用逐像素的损失和上采样模块做了针对稠密预测的增强。针对分割的训练是通过微调来实现的,这个过程通过在整个网络上的反向传播完成。
- 论文地址:https://arxiv.org/pdf/1605.06211.pdf
3. U-Net: Convolutional Networks for Biomedical Image Segmentation (MICCAI 2015)
在生物医学图像处理中,得到图像中的每一个细胞的类别标签是非常关键的。生物医学中最大的挑战就是用于训练的图像是不容易获取的,数据量也不会很大。U-Net 是非常著名的解决方案,它在全连接卷积层上构建模型,对其做了修改使得它能够在少量的训练图像数据上运行,得到了更加精确的分割。
- 论文地址:https://arxiv.org/pdf/1505.04597.pdf
由于少量训练数据是可以获取的,所以这个模型通过在可获得的数据上应用灵活的变形来使用数据增强。正如上面的图 1 所描述的,模型的网络结构由左边的收缩路径和右边的扩张路径组成。
收缩路径由 2 个 3X3 的卷积组成,每个卷积后面跟的都是 ReLU 激活函数和一个进行下采样的 2X2 最大池化运算。扩张路径阶段包括一个特征通道的上采样。后面跟的是 2X2 的转置卷积,它能够将特征通道数目减半,同时加大特征图。最后一层是 1X1 的卷积,用这种卷积来组成的特征向量映射到需要的类别数量上。
在这个模型中,训练是通过输入的图像、它们的分割图以及随机梯度下降来完成的。数据增强被用来教网络学会在使用很少的训练数据时所必需的鲁棒性和不变性。这个模型在其中的一个实验中实现了 92% 的 mIoU。
4. The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation (2017)
DenseNets 背后的思想是让每一层以一种前馈的方式与所有层相连接,能够让网络更容易训练、更加准确。
模型架构是基于包含下采样和上采样路径的密集块构建的。下采样路径包含 2 个 Transitions Down (TD),而上采样包含 2 个 Transitions Up (TU)。圆圈和箭头代表网络中的连接模式。
- 论文地址:https://arxiv.org/pdf/1611.09326.pdf
这篇论文的主要贡献是:
- 针对语义分割用途,将 DenseNet 的结构扩展到了全卷积网络。
- 提出在密集网络中进行上采样路径,这要比其他的上采样路径性能更好。
- 证明网络能够在标准的基准测试中产生最好的结果。
这个模型在 CamVid 数据集中实现 88% 的全局准确率。
5. Multi-Scale Context Aggregation by Dilated Convolutions (ICLR 2016)
这篇论文提出了一个卷积网络模块,能够在不损失分辨率的情况下混合多尺度的上下文信息。然后这个模块能够以任意的分辨率被嵌入到现有的结构中,它主要基于空洞卷积。
- 论文地址:https://arxiv.org/abs/1511.07122
这个模块在 Pascal VOC 2012 数据集上做了测试。结果证明,向现存的语义分割结构中加入上下文模块能够提升准确率。
在实验中训练的前端模块在 VOC-2012 验证集上达到了 69.8% 的平均交并比(mIoU),在测试集上达到了 71.3% 的平均交并比。这个模块对不同对象的预测准确率如下所示:
6. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets Atrous Convolution and Fully Connected CRFs (TPAMI 2017)
在这篇论文中,作者对语义分割任务中做出了下面的贡献:
- 为密集预测任务使用具有上采样的卷积
- 在多尺度上为分割对象进行带洞空间金字塔池化(ASPP)
- 通过使用 DCNNs 提升了目标边界的定位
- 论文地址:https://arxiv.org/abs/1606.00915
这篇论文提出的 DeepLab 系统在 PASCAL VOC-2012 图像语义分割上实现了 79.7% 的平均交并比(mIoU)。
这篇论文解决了语义分割的主要挑战,包括:
- 由重复的最大池化和下采样导致的特征分辨率降低
- 检测多尺度目标
- 因为以目标为中心的分类器需要对空间变换具有不变性,因而降低了由 DCNN 的不变性导致的定位准确率。
带洞卷积(Atrous convolution)有两个用途,要么通过插入零值对滤波器进行上采样,要么对输入特征图进行稀疏采样。第二个方法需要通过等于带洞卷积率 r 的因子来对输入特征图进行子采样,然后对它进行去交错(deinterlacing),使其变成 r^2 的低分辨率图,每一个 r×r 区域都有一个可能迁移。在此之后,一个标准的卷积被应用在中间的特征图上,并将其与原始图像分辨率进行交错。