什么叫基本方程（什么是正规方程）

逗爷 2023-03-28 21:11:18 163

什么叫基本方程（什么是正规方程）那我们只需要对参数向量的每一个分量求偏导，然后让它等于0，得到一个方程组，把这些参数分量都求出来，就可以得到让代价函数取得最小值的参数向量的值。当然了，这个求取偏微分并求解的过程可能会相当之复杂，但我们要知道有这么一个方法。更进一步的，如果我们的参数不是一个简单的实数，而是一个向量呢？即前面我们用梯度下降法求解的问题放到这个地方，就变成了：我们利用初中的数学知识就可以理解一下正规方程法，以前我们学过的抛物线，假设我们的代价函数是：上图中抛物线方程，如果系数a>0，则开口向上，有一个最小值点。你看，我们可以很快速的把这个最小值点给找出来。当然，学过微积分后这个事更简单，我们对抛物线函数求一次导，然后让它等于0，就可以求出代价函数位于最低点时的 .

本文是吴恩达《机器学习》视频笔记第24篇，对应第2周第6个视频。

“Linear Regression with multiple variables——Normal equation”

通过前面的好多视频，我们对线性回归方模型、模型参数的求解有了初步认识，我们有好几个视频都是用梯度下降法来求解模型参数最优值的，除此之外呢？还可以用正规方程来求最优参数，本次视频就讲正规方程。

正规方程和梯度下降法的比较

梯度下降法，说白了就是我们是使用迭代的方式逐步把最优参数给试出来的；而正规方程呢，我们使用分析的方法可以一次性快、准、狠的把最优解给找出来。

什么叫基本方程（什么是正规方程）(1)

正规方程法的直观理解

我们利用初中的数学知识就可以理解一下正规方程法，以前我们学过的抛物线，假设我们的代价函数是：

什么叫基本方程（什么是正规方程）(2)

上图中抛物线方程，如果系数a>0，则开口向上，有一个最小值点。你看，我们可以很快速的把这个最小值点给找出来。

当然，学过微积分后这个事更简单，我们对抛物线函数求一次导，然后让它等于0，就可以求出代价函数位于最低点时的 .

什么叫基本方程（什么是正规方程）(3)

更进一步的，如果我们的参数不是一个简单的实数，而是一个向量呢？即前面我们用梯度下降法求解的问题放到这个地方，就变成了：

什么叫基本方程（什么是正规方程）(4)

那我们只需要对参数向量的每一个分量求偏导，然后让它等于0，得到一个方程组，把这些参数分量都求出来，就可以得到让代价函数取得最小值的参数向量的值。当然了，这个求取偏微分并求解的过程可能会相当之复杂，但我们要知道有这么一个方法。

一个例子

依然是卖房子的例子：

什么叫基本方程（什么是正规方程）(5)

我们加上一个全为1的然后要求解的问题就变成了：

什么叫基本方程（什么是正规方程）(6)

这样的话呢，我们就有了因变量y和自变量矩阵x之间的线性模型关系，然后有代价函数:

什么叫基本方程（什么是正规方程）(7)

对这个代价函数求各个的偏导，然后让它等于0. 就可以求得这样一个参数向量：

什么叫基本方程（什么是正规方程）(8)

这个参数向量，就可以让代价函数取最小值。很多文章管这叫最小二乘法。

回顾一下，正规方程法求解最优参数的过程：假设有m组训练样本，每个样本有n个自变量（特征），然后自变量的矩阵变成：

什么叫基本方程（什么是正规方程）(9)

假如我们研究的对象，只有一个特征，那训练集就是：

什么叫基本方程（什么是正规方程）(10)

相对应的，用前面的正规方程法求得的最优参数就是：

什么叫基本方程（什么是正规方程）(11)

把X上面这个式子里一代，就齐活了。

在程序里，求这个是很简单的。以Octave为例，直接就是下面这样一行命令就可以搞定：

什么叫基本方程（什么是正规方程）(12)

命令的前半部分pinv(X'*X) 表示X的转置与X的矩阵乘然后求逆矩阵。

这样一行命令，就可以求出让代价函数最小的参数，是不是很优秀？

梯度下降法与正规方程法的比较

相对于梯度下降法，正规方程法无需确定学习率、无需运行很多次，可以一次命中目标。

什么叫基本方程（什么是正规方程）(13)

但问题是，有时候我们的特征变量特别多的时候（比如上百万）梯度下降法依然可以很好的运行，而正规方程法在计算矩阵乘法、矩阵转置、矩阵的逆的时候就对计算机的算力要求相当高了。

换句话说，当n特别大的时候，就建议使用梯度下降法了。

大和小是比较主观的，什么时候算比较大呢？根据经验，一般在n为万这一量级的时候，就可以考虑使用梯度下降法了。

只要n不是很大，都是建议直接使用正规方程法的。

网站首页

返回栏目