快捷搜索:  汽车  科技

机器学习栅格预测(一种结合条件随机场与CNN的高效语义分割方法)

机器学习栅格预测(一种结合条件随机场与CNN的高效语义分割方法)实验结果我们可以通过类似于二维卷积(和局部连接层)来实现我们这种卷积的高效计算。第一步是平铺输入 P 以获得形状为 [bs,c,k,k,h,w] 的数据。这个过程通常被称为 im2col,与二维卷积相同 [9]。二维卷积通过在空间维度上批量进行矩阵乘法来完成,我们用通道维度上的批量点积来代替这一步骤,其它所有步骤都是相同的。所有 s 个核的组合信息传递的结果 Q 如下所示:这种信息传递操作类似于卷积神经网络中标准的二维卷积。然而,在我们的例子中,滤波器的值取决于空间维度 x 和 y。这与局部连接层相似 [8]。与局部连接层和二维卷积不同的是,我们的滤波器的通道维度 c 是不变的,我们一般可以将这种操作看作是维度 c^2 上的卷积。通过仅使用标准的卷积神经网络操作来实现我们这种卷积是可能的。然而,这要求数据在 GPU 内存中重新组织好几次,这是一个非常缓慢的过程。分析显示 90% 的 GPU

语义分割等结构化预测任务可以从条件随机场等概率图模型获取很多优势,但由于条件随机场的训练速度及训练难度,目前研究者基本上都仅使用卷积网络进行处理。本文提出了一种卷积条件随机场,它能以卷积运算的方式解决 CRF 的两个大问题,并结合 CNN 实现更好的语义分割效果。

语义图像分割旨在为图像中的每个像素生成分类标签,是视觉感知中的一个重要任务。卷积神经网络已在解决语义分割任务上取得了很好的效果 [23 6 7 40]。虽然深层神经网络在提取局部特征和利用小感受野进行良好预测方面效果显著,但它们缺乏利用全局上下文信息的能力,无法直接建模预测之间的相互作用。因此,有人认为,简单的前馈卷积神经网络也许并不是完成类似语义分割等结构化预测任务的最佳选择 [40 20 41]。为了解决上述问题,一些研究者成功地将卷积神经网络的有效性与条件随机场的建模能力相结合,以获得更好的性能 [20 4 41]。尽管结构化模型的成功是无可争议的,但在最近的方法和研究成果却鲜有人问津 [37 7 40]。

我们认为,导致这一现状的主要原因是条件随机场的学习速度非常缓慢,且难以优化。如何为条件随机场等结构化组件学习特征仍然是一个开放性研究问题 [36 20],许多方法完全依赖于手动设定的高斯特征 [17 41 31 6]。此外,条件随机场的推断比卷积神经网络的推断要慢两个数量级,这使得基于条件随机场的方法在许多实际应用中的运行速度很慢。而当前条件随机场较长的训练时间,也使得人们无法进行更加深入的研究和实验。

其中 θ_i 是可学习的参数。对于一组高斯核 g_1 ... g_s,我们定义经合并的核矩阵 K 为:

机器学习栅格预测(一种结合条件随机场与CNN的高效语义分割方法)(1)

所有 s 个核的组合信息传递的结果 Q 如下所示:

机器学习栅格预测(一种结合条件随机场与CNN的高效语义分割方法)(2)

这种信息传递操作类似于卷积神经网络中标准的二维卷积。然而,在我们的例子中,滤波器的值取决于空间维度 x 和 y。这与局部连接层相似 [8]。与局部连接层和二维卷积不同的是,我们的滤波器的通道维度 c 是不变的,我们一般可以将这种操作看作是维度 c^2 上的卷积。

通过仅使用标准的卷积神经网络操作来实现我们这种卷积是可能的。然而,这要求数据在 GPU 内存中重新组织好几次,这是一个非常缓慢的过程。分析显示 90% 的 GPU 时间开销用于数据重组。因此,我们选择建立一个本地的底层实现,以获得额外 10 倍的加速。

我们可以通过类似于二维卷积(和局部连接层)来实现我们这种卷积的高效计算。第一步是平铺输入 P 以获得形状为 [bs,c,k,k,h,w] 的数据。这个过程通常被称为 im2col,与二维卷积相同 [9]。二维卷积通过在空间维度上批量进行矩阵乘法来完成,我们用通道维度上的批量点积来代替这一步骤,其它所有步骤都是相同的。

实验结果

机器学习栅格预测(一种结合条件随机场与CNN的高效语义分割方法)(3)

图 1:合成任务的可视化分析。特别是在最后一个例子中,我们可以在物体边界处清楚地看到的来自 permutohedral lattice 近似的伪影。

实验中,我们在训练集的 200 幅留存图像上训练条件随机场模型,并在官方 Pascal VOC 数据集的 1464 幅图像上对它的性能进行评估。我们在表 2 中报告了我们的结果,图 3 为模型输出的可视化分析。

机器学习栅格预测(一种结合条件随机场与CNN的高效语义分割方法)(4)

表 2:使用解耦训练的条件随机场在验证集上的性能比较。 C 表示模型使用卷积作为兼容性转换, T 表示模型学习了高斯特征。除了来自 DeepLab 的条件随机场,其他模型我们都使用一元运算(unaries)。

机器学习栅格预测(一种结合条件随机场与CNN的高效语义分割方法)(5)

图 3:使用解耦训练策略在 Pascal VOC 数据下的结果可视化。示例 2 和 4 描述了条件随机场无法改进一元运算(unary)的失败情况。

论文:Convolutional CRFs for Semantic Segmentation

机器学习栅格预测(一种结合条件随机场与CNN的高效语义分割方法)(6)

  • 论文地址:https://arxiv.org/abs/1805.04777
  • 实现地址:https://github.com/MarvinTeichmann/ConvCRF

对于具有挑战性的语义图像分割任务,最有效的模型传统上将条件随机场(CRF)的结构化建模能力与卷积神经网络的特征提取能力结合起来。然而,在最近的工作中中,使用条件随机场进行后处理已经不再受到人们青睐。我们认为这主要是由于条件随机场训练和推断速度太过缓慢以及其参数学习的难度所致。为了克服这两个问题,我们提出将条件独立的假设添加到全连接条件随机场的框架中。这使得我们可以在 GPU 上高效地使用卷积操作重新进行推断。这样做可以将推断和训练加速超过 100 倍。卷积条件随机场的所有参数都可以使用反向传播轻松进行优化。为了促进 CRF 的进一步研究,我们还公开了相关的源码。

猜您喜欢: