快捷搜索:  汽车  科技

人工智能大图语义分割(AI人工智能)

人工智能大图语义分割(AI人工智能)关键特点:SegNet 架构FCN-8s 融合了不同粗糙度(conv3、conv4和fc7)的特征,利用编码器不同阶段不同分辨率的空间信息来细化分割结果。二、SegNetSegNet 的新颖之处在于解码器对其较低分辨率的输入特征图进行上采样的方式。具体地说,解码器使用了在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这种方法消除了学习上采样的需要。经上采样后的特征图是稀疏的,因此随后使用可训练的卷积核进行卷积操作,生成密集的特征图。我们将我们所提出的架构与广泛采用的 FCN 以及众所周知的 DeepLab-LargeFOV,DeconvNet 架构进行比较。比较的结果揭示了在实现良好的分割性能时所涉及的内存与精度之间的权衡。

图像语义分割指的是将输入图像中的每个像素分配一个语义类别,以得到像素化的密集分类。一般的语义分割架构可以被认为是一个编码器-解码器网络。编码器通常是一个预训练的分类网络,像 VGG、ResNet,然后是一个解码器网络。这些架构不同的地方主要在于解码器网络。解码器的任务是将编码器学习到的可判别特征(较低分辨率)从语义上投影到像素空间(较高分辨率),以获得密集分类。

不同于分类任务中网络的最终结果(对图像分类的概率)是唯一重要的事,语义分割不仅需要在像素级有判别能力,还需要有能将编码器在不同阶段学到的可判别特征投影到像素空间的机制。不同的架构采用不同的机制(跳跃连接、金字塔池化等)作为解码机制的一部分。

人工智能大图语义分割(AI人工智能)(1)

人工智能大图语义分割(AI人工智能)(2)

一、Fully Convolution Networks (FCNs) 全卷积网络

人工智能大图语义分割(AI人工智能)(3)

FCN-8s 网络架构

FCN-8s 融合了不同粗糙度(conv3、conv4和fc7)的特征,利用编码器不同阶段不同分辨率的空间信息来细化分割结果。

二、SegNet

SegNet 的新颖之处在于解码器对其较低分辨率的输入特征图进行上采样的方式。具体地说,解码器使用了在相应编码器的最大池化步骤中计算的池化索引来执行非线性上采样。这种方法消除了学习上采样的需要。经上采样后的特征图是稀疏的,因此随后使用可训练的卷积核进行卷积操作,生成密集的特征图。我们将我们所提出的架构与广泛采用的 FCN 以及众所周知的 DeepLab-LargeFOV,DeconvNet 架构进行比较。比较的结果揭示了在实现良好的分割性能时所涉及的内存与精度之间的权衡。

人工智能大图语义分割(AI人工智能)(4)

SegNet 架构

关键特点:

SegNet 在解码器中使用反池化对特征图进行上采样,并在分割中保持高频细节的完整性。

编码器不使用全连接层(和 FCN 一样进行卷积),因此是拥有较少参数的轻量级网络。

人工智能大图语义分割(AI人工智能)(5)

反池化

三、U-Net

U-Net 架构包括一个捕获上下文信息的收缩路径和一个支持精确本地化的对称扩展路径。我们证明了这样一个网络可以使用非常少的图像进行端到端的训练,并且在ISBI神经元结构分割挑战赛中取得了比以前最好的方法(一个滑动窗口的卷积网络)更加优异的性能。我们使用相同的网络,在透射光显微镜图像(相位对比度和 DIC)上进行训练,以很大的优势获得了2015年 ISBI 细胞追踪挑战赛。此外,网络推断速度很快。一个512x512的图像的分割在最新的 GPU 上花费了不到一秒。

人工智能大图语义分割(AI人工智能)(6)

U-Net

U-Net 在 EM 数据集上取得了最优异的结果,该数据集只有30个密集标注的医学图像和其他医学图像数据集,U-Net 后来扩展到3D版的 3D-U-Net。虽然 U-Net 最初的发表在于其在生物医学领域的分割、网络的实用性以及从非常少的数据中学习的能力,但现在已经成功应用其他几个领域,例如 卫星图像分割。

四、DeepLab v1

人工智能大图语义分割(AI人工智能)(7)

空洞卷积

关键特点:

  • 提出 空洞卷积(atrous convolution)(又称扩张卷积(dilated convolution))
  • 在最后两个最大池化操作中不降低特征图的分辨率,并在倒数第二个最大池化之后的卷积中使用空洞卷积。
  • 使用 CRF(条件随机场) 作为后处理,恢复边界细节,达到准确定位效果。
  • 附加输入图像和前四个最大池化层的每个输出到一个两层卷积,然后拼接到主网络的最后一层,达到 多尺度预测 效果。

五、DeepLab v2

我们强调上采样过滤器的卷积,或“空洞卷积”,在密集预测任务中是一个强大的工具。空洞卷积允许我们显式地控制在深度卷积神经网络中计算的特征响应的分辨率。它还允许我们有效地扩大过滤器的视野,在不增加参数数量或计算量的情况下引入更大的上下文。其次,提出了一种空洞空间金字塔池化(ASPP)的多尺度鲁棒分割方法。ASPP 使用多个采样率的过滤器和有效的视野探测传入的卷积特征层,从而在多个尺度上捕获目标和图像上下文。第三,结合 DCNNs 方法和概率图形模型,改进了目标边界的定位。DCNNs 中常用的最大池化和下采样的组合实现了不变性,但对定位精度有一定的影响。我们通过将 DCNN 最后一层的响应与一个全连接条件随机场(CRF)相结合来克服这个问题。DeepLab v2 在 PASCAL VOC 2012 上得到了 79.7% 的 mIoU。

人工智能大图语义分割(AI人工智能)(8)

(a) DeepLab v1,(b) DeepLab v2

六、DeepLab v3

在工作中,我们再次讨论空洞卷积,一个显式调整过滤器视野,同时控制特征相应分辨率的强大工具。为了解决多尺度目标的分割问题,我们串行/并行设计了能够捕捉多尺度上下文的模块,模块中采用不同的空洞率。此外,我们增强了先前提出的空洞空间金字塔池化模块,增加了图像级特征来编码全局上下文,使得模块可以在多尺度下探测卷积特征。提出的 “DeepLab v3” 系统在没有 CRF 作为后处理的情况下显著提升了性能。

人工智能大图语义分割(AI人工智能)(9)

DeepLab v3

关键特点:

  • 在残差块中使用多网格方法(MultiGrid),从而引入不同的空洞率。
  • 在空洞空间金字塔池化模块中加入图像级(Image-level)特征,并且使用 BatchNormalization 技巧

七、PSPNet

我们利用基于不同区域的上下文信息集合,通过我们的金字塔池化模块,使用提出的金字塔场景解析网络(PSPNet)来发挥全局上下文信息的能力。我们的全局先验表征在场景解析任务中产生了良好的质量结果,而 PSPNet 为像素级的预测提供了一个更好的框架,该方法在不同的数据集上达到了最优性能。它首次在2016 ImageNet 场景解析挑战赛,PASCAL VOC 2012 基准和 Cityscapes 基准中出现。

人工智能大图语义分割(AI人工智能)(10)

PSPNet 架构

关键特点:

PSPNet 通过引入空洞卷积来修改基础的 ResNet 架构,特征经过最初的池化,在整个编码器网络中以相同的分辨率进行处理(原始图像输入的1/4),直到它到达空间池化模块。

在 ResNet 的中间层中引入辅助损失,以优化整体学习。

在修改后的 ResNet 编码器顶部的空间金字塔池化聚合全局上下文。

八、Mask R-CNN

该方法被称为 Mask R-CNN,以Faster R-CNN 为基础,在现有的边界框识别分支基础上添加一个并行的预测目标掩码的分支。Mask R-CNN 很容易训练,仅仅在 Faster R-CNN 上增加了一点小开销,运行速度为 5fps。此外,Mask R-CNN 很容易泛化至其他任务,例如,可以使用相同的框架进行姿态估计。我们在 COCO 所有的挑战赛中都获得了最优结果,包括实例分割,边界框目标检测,和人关键点检测。在没有使用任何技巧的情况下,Mask R-CNN 在每项任务上都优于所有现有的单模型网络,包括 COCO 2016 挑战赛的获胜者。

人工智能大图语义分割(AI人工智能)(11)

Mask R-CNN 架构相当简单,它是流行的 Faster R-CNN 架构的扩展,在其基础上进行必要的修改,以执行语义分割。

关键特点:

  • 在Faster R-CNN 上添加辅助分支以执行语义分割
  • 对每个实例进行的 RoIPool 操作已经被修改为 RoIAlign ,它避免了特征提取的空间量化,因为在最高分辨率中保持空间特征不变对于语义分割很重要。
  • Mask R-CNN 与 Feature Pyramid Networks(类似于PSPNet,它对特征使用了金字塔池化)相结合,在 MS COCO 数据集上取得了最优结果。

九、DFANet网络架构

深度特征聚合网络DFANet包含三个部分,轻量级的主干网络,子网聚合模块和跨阶段的聚合模块。
鉴于深度可分离卷积的高效操作,论文对Xception网络进行微调作为主干网络,末尾加上一个全连接注意力模块保留最大的感受野。
子网聚合模块则浅层特征图进行上采样以作为输入到下一层网络中调整预测结果。从另一个角度来看,子网聚合也可以被看作一个从粗糙到精细的过程。
子阶段聚合模块融合了不同阶段的特征表示,通过结合相同维度的各层结果进行感受野和高层结构细节信息的传递。
三个部分之后是一个简单的解码模块,生成最终的预测结果。
主要的贡献在于:

实时语义分割的SOTA效果

  • 新型的语义分割网络,多个互联的编码信息流以融合高层语义信息
  • 充分利用不同尺度感受野的特征图和高层特征图的调整
  • 修改Xception,尾部加入一个FC注意力模块增强特征图感受野。

人工智能大图语义分割(AI人工智能)(12)

网络其实也是编解码结构,编码结构是三个Xception主干网络的聚合,还有一些连接这些信息的子阶段,解码器是一个简单的上采样重建模块。

猜您喜欢: