快捷搜索:  汽车  科技

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的图源:arXiv: 1710.10121这里展示了其它卷积网络与微分方程之间的关系,它们在图像识别等任务上都非常有效。如下所示为 ResNet 及其它三种卷积网络架构。北京大学董彬副教授等研究者做了进一步探讨,即 ResNet 与微分方程的这种关系是特例还是一般化的联系。如果数值 ODE 和网络构架的联系建立起来了,董彬老师表示我们就可以从数值 ODE 反推出一些有用的神经网络构架。因为 ODE 已经发展了几十年,有丰富的研究成果可以参考,反推的新架构可能取得更好的效果。在 ICML 2018 的一项研究中,董彬等研究者表示很多高效的卷积神经网络都能解释为微分方程,并基于微分方程的线性多步解法提出新的线性多步架构,这种结构能提升 ImageNet 等的图像分类任务的性能。微分方程的解法即网络架构

这里 t 相当于层级 l 的连续化,如果 l 趋向于无穷小,那么按照导数的定义,z_l 1 与 z_l 两层之间的差就趋向于 z 对 t 的导数。所以,可以说残差网络其实就是连续变换的欧拉离散化,它是一个特例。

如果从导数定义的角度来看方程 2.7,当 t 的变化趋向于无穷小时,隐藏状态的变化 dz 可以通过神经网络建模。当 t 从初始一点点变化到终止,那么 z(t) 的改变最终就代表着前向传播结果。

从节选的几步推导,我们可以看到,ResNet 能天然理解为动力学系统,能用微分方程天然表示。但是所有的,或大多数深度神经网络都能这样理解吗?董彬老师做了进一步的研究,他们将这一观点推广到了更多的深度神经网络。

其它深度卷积网络又怎样?

北京大学董彬副教授等研究者做了进一步探讨,即 ResNet 与微分方程的这种关系是特例还是一般化的联系。如果数值 ODE 和网络构架的联系建立起来了,董彬老师表示我们就可以从数值 ODE 反推出一些有用的神经网络构架。因为 ODE 已经发展了几十年,有丰富的研究成果可以参考,反推的新架构可能取得更好的效果。

在 ICML 2018 的一项研究中,董彬等研究者表示很多高效的卷积神经网络都能解释为微分方程,并基于微分方程的线性多步解法提出新的线性多步架构,这种结构能提升 ImageNet 等的图像分类任务的性能。

  • 论文:Beyond Finite Layer Neural Networks: Bridging Deep Architectures and Numerical Differential Equations
  • 论文地址:https://arxiv.org/abs/1710.10121

微分方程的解法即网络架构

这里展示了其它卷积网络与微分方程之间的关系,它们在图像识别等任务上都非常有效。如下所示为 ResNet 及其它三种卷积网络架构。

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(1)

图源:arXiv: 1710.10121

其中 PolyNet 为每个残差模块引入了 PolyInception 模块,从而加强模块的表达能力。PolyInception 模块是 Inception 单元的「多项式」组合,它会以并行或串行的方式集成多条计算路径。FractalNet 以自相似性为基准设计架构,它会重复引用简单的扩展规则,从而生成结构为截断分形(fractal)的深度网络。最后的 RevNet 是一种可逆网络,它不需要在前馈传播中储存中间激活值。

在下表中,董彬老师总结了不同卷积网络对应的微分方程数值解法。其中 ResNet 和 ResNeXt 可视为步长为 1 的前向欧拉离散化,其它卷积网络也对应着不同的离散化方式。

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(2)

图源:arXiv: 1710.10121

PolyNet

这里我们先看看 PolyNet 怎样搭上微分方程这班车。PolyNet 主要希望提供多样性的架构,因此 PolyInception 除了常规残差模块的一阶路径,还添加了另一条二阶路径。具体而言,PolyInception 模块可以表示为:

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(3)

其中 I 表示恒等映射,「·」表示作用于,即 F·x 表示非线性变换 F 作用于 x。我们可以看到,PolyInception 多了一个二阶的复合函数,也就是说,如果 F 表示某种 Inception 模块,那么二阶的路径会穿过串联的两个 Inception 模块。在 PolyNet 原论文中,作者展示了可能的 PolyInception 结构:

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(4)

图源:arXiv: 1611.05725

如上所示,a 和 b 是等价的,F 和 G 表示是否共享参数。董彬老师表示,PolyNet 可以解释为时间步为 1 的反向欧拉方法,实际上前向传播就是在解一个反向欧拉。

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(5)

猜您喜欢: