快捷搜索:  汽车  科技

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的因此如果能找到了微分方程与深度网络之间的关系,那么两个领域之间的研究成果就能互相借鉴,也就能找到更高效的深度模型。不过深度学习一般也就会用到概率论、线性代数和最优化等基础数学,似乎与微分方程没什么关系?其实并不然,如果我们探索网络架构到底与数学的哪些概念是相关的,那么会发现深度神经网络可以理解为一种微分方程。即,深度神经网络架构,就是离散化的微分方程。微分方程与深度学习深度学习还能与微分方程相结合?是的,这是一个很有意思的领域,近来也有非常多的研究成果,包括 NeurIPS 2018 的最佳论文。那么什么是微分方程,它结合深度学习又有什么用呢?按照维基百科的描述:「微分方程是一种数学方程,用来描述某一类函数与其导数之间的关系」,因此一个方程如果同时包含函数及其导数,那么就可以称为微分方程。例如,f'(x) = 2x 就是一个常微分方程,我们可以「看出来」其通解为 f(x)=x^2 C,其

微分方程真的能结合深度神经网络?真的能用来理解深度神经网络、推导神经网络架构、构建深度生成模型?我们将从鄂维南、董彬和陈天琦等研究者的工作中,窥探微分方程与深度学习联袂前行的路径。

近日,北京智源人工智能研究院开展了第一次论坛,其以「人工智能的数理基础」这一重大研究方向为主题,从数学、统计和计算等角度讨论了智能系统应该怎样融合数学系统。

在论坛中,北京大学董彬副教授、林伟研究院和张志华教授等研究者从基础出发介绍了「数学」眼中的机器学习是什么样的。而这些数理基础,正好是构建可计算、可泛化、可解释和稳健 ML 系统所必需的。

在众多演讲中,我们发现董彬老师介绍的微分方程非常有吸引力,它对于探索新的深度学习架构、构建更高性能的深度学习模型非常有帮助。因此在这篇文章中,我们重点关注微分方程在深度学习中的应用,看起来,它们确实是天生一对的组合。

微分方程与深度学习

深度学习还能与微分方程相结合?是的,这是一个很有意思的领域,近来也有非常多的研究成果,包括 NeurIPS 2018 的最佳论文。那么什么是微分方程,它结合深度学习又有什么用呢?

按照维基百科的描述:「微分方程是一种数学方程,用来描述某一类函数与其导数之间的关系」,因此一个方程如果同时包含函数及其导数,那么就可以称为微分方程。例如,f'(x) = 2x 就是一个常微分方程,我们可以「看出来」其通解为 f(x)=x^2 C,其中 C 表示任意常数。

不过深度学习一般也就会用到概率论、线性代数和最优化等基础数学,似乎与微分方程没什么关系?其实并不然,如果我们探索网络架构到底与数学的哪些概念是相关的,那么会发现深度神经网络可以理解为一种微分方程。即,深度神经网络架构,就是离散化的微分方程。

因此如果能找到了微分方程与深度网络之间的关系,那么两个领域之间的研究成果就能互相借鉴,也就能找到更高效的深度模型。

此外,深度学习的模型设计缺少系统指导,大多数深度学习模型都缺少可解释性,这也限制了它的应用。如果加上了微分方程,那么网络架构就是数值微分方程,网络训练就是最优控制,神经网络的设计也就能有理论指导了。

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(1)

如上图所示,比较受关注的是神经网络架构与数值微分方程之间的关系,这个领域早期比较有影响的就是北大、普林斯顿教授鄂维南老师的研究,它首次将残差网络理解为微分方程。北大董彬等研究者在 ICML 2018 中进一步表明 ResNet、PolyNet、FractalNet 和 RevNet 等网络都可以理解为微分方程的不同数值离散方式。

此外,在 NeurIPS 2018 的最佳论文中,陈天琦等研究者提出神经常微分方程,在近似常数级的内存成本上,ODENet 能实现高效的图像分类和生成任务。在 ICLR 2019 中,陈天琦等研究者进一步将微分方程应用到流模型中,从而获得内存效率更高的生成模型。

正如董彬老师所言,通过结合微分方程,我们可以从数学角度出发设计网络架构,并分析它们的泛化性能和可解释性。在这篇文章中,我们希望从基本概念到应用,介绍该领域的一些新想法。

数学老师眼中的 ResNet

鄂维南院士是一位主要关注数学领域的研究者,也是北京大学和普林斯顿大学的教授。在 17 年的《Communications in Mathematics and Statistics》中,鄂维南发表了一篇文章,他讨论了使用连续动力学系统建模高维非线性函数的想法,即微分方程与深度学习之间的关系。

以下是该工作的地址:

  • 论文:A Proposal on Machine Learning via Dynamical Systems
  • 论文地址:https://link.springer.com/article/10.1007/s40304-017-0103-z

在这篇「Proposal」中,鄂老师表示深度神经网络可以理解为离散的动力学系统。离散的动力学系统很难分析,但连续的动力学系统在数学上更易于分析,因此它可作为深度神经网络的数学基础。此外,因为有很多种方式离散化动力学系统,所以我们也许能构建更多有意思的模型。例如,动力学系统可以选择自适应的时间步大小,这对应于选择自适应的神经网络层级。

这一篇文章提出了非常多的新洞见,尤其是结合常微分方程与深度残差网络的新视角。下面让我们看看在数学家的眼中,残差网络到底该怎样推导。

离散动态系统:ResNet

因为 DNN 可以视为离散的动力学系统,那么每一步最基础的动力学过程即线性变换加上非线性激活函数,这是最简单的非线性离散动力学系统之一。具体而言对于深度残差网络,我们可以用离散动态系统描述为:

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(2)

其中 Z_l 和 Z_l 1 为第 l 层的输入与输出,y_l 为第 l 层的辅助变量,h 和 g 为一些映射,它们可以是线性的,也可以是非线性的。对于深度神经网络,如果 g 和 h 是恒等映射,训练会非常顺畅,那么为什么会这样呢?为什么 g 和 h 是恒等映射就能减轻梯度爆炸或消失问题?

实际上,如果令 G 为 g 的逆向映射(inverse map),我们可以将上述动力学系统写为:

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(3)

为了有一个稳定的训练过程,即梯度不爆炸、不消失,上述方程右边的梯度需要接近于恒等映射。也就是说,梯度由后向前传时,它在量上需要保持稳定。鄂老师表示若令 h 和 g 都为恒等映射,∇G∇h 就逼近恒等映射(F 为较小随机扰动),梯度的传递就非常平稳。

其实若 h 和 g 为恒等映射,那么方程 2.3 就可以写为:

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(4)

这难道不就是标准的残差连接吗?它不就是如下动态系统的离散化吗?

逻辑回归属于深度学习算法吗:天生一对 硬核微分方程与深度学习的(5)

猜您喜欢: