深度学习梯度计算公式及方法（五分钟机器学习）

逗爷 2023-08-25 17:18:19 514

深度学习梯度计算公式及方法（五分钟机器学习）Fig 2：完整20个数据的分布Fig1：前5个数据点的X和Y视频中的例子，我们简单地描述了算法逻辑，但是并没有给出详细的计算过程。下面我将用一个实际的计算例子，去描述如何使用Gradient Descent去更新Linear Regression的模型参数。STEP 0：随机生成符合线性分布的数据我们首先生成20个数据用于我们后续的实验。下面Fig1 是我们dataset中前5个数据点，而Fig2是整个数据Visualize的结果。可以看到，我们的数据明显处于线性分布。（都分布在一条直线周围）

哈喽各位观众大家好，我是爱讲故事的某某某。今天我们来详细讲讲如何运用Gradient Descent这个方法去更新一个模型的参数，使得到的数据分布更加准确。还没有看过的小伙伴们欢迎去补番这个视频：

【五分钟机器学习：进阶篇】梯度下降法：现代机器学习的血液

=======================================================================

在这个视频中，我们提到了如何用梯度下降去优化一个模型内部的参数，总共分为以下6个步骤：

随机初始化模型的参数
计算当前参数情况下的函数输出（也就是估算当前的已知数据分布）
计算LOSS
基于LOSS，计算每个参数的导数【这一步数学公式小多，不想看可以跳过】
用导数更新参数值
重复2~5，直到模型收敛，也就是LOSS足够低

视频中的例子，我们简单地描述了算法逻辑，但是并没有给出详细的计算过程。下面我将用一个实际的计算例子，去描述如何使用Gradient Descent去更新Linear Regression的模型参数。

STEP 0：随机生成符合线性分布的数据

我们首先生成20个数据用于我们后续的实验。下面Fig1 是我们dataset中前5个数据点，而Fig2是整个数据Visualize的结果。可以看到，我们的数据明显处于线性分布。（都分布在一条直线周围）

深度学习梯度计算公式及方法（五分钟机器学习）(1)

Fig1：前5个数据点的X和Y

深度学习梯度计算公式及方法（五分钟机器学习）(2)

Fig 2：完整20个数据的分布

STEP 1：随机初始化模型的参数

为了表示X，Y的对应关系，我们定义了线性回归的方程：

深度学习梯度计算公式及方法（五分钟机器学习）(3)

Eq1: Linear Regression

然后我们随机初始化我们的a和b的数值，比如a = 0.293 b=0.758.

STEP 2: 计算当前参数情况下的函数输出

基于上面初始化的a 和b，我们现在的线性分布是：

深度学习梯度计算公式及方法（五分钟机器学习）(4)

Eq2: 初始化的a b构成的线性回归

所以，当我们带入所有的x到这个公式，我们会求得所有的对应y，也就是当前状态下的预测值 y_pred。

STEP 3：计算LOSS

有了y_true(也就是我们STEP0所生成的y)，和基于当前a b状态下的y_pred 我们可以根据下面的公式计算LOSS。对于线性回归，Sum Squre Residual (SSE)公式如下：

深度学习梯度计算公式及方法（五分钟机器学习）(5)

Eq3: SSE 计算公式

需要注意的是，这个求和公式代表着我们要对所有样本点都计算误差在汇总为一个数值。

STEP 4：基于LOSS，计算每个参数的导数

这一步，会有一些比较复杂的数学公式，需要一定的线性代数的基础。不想看的同学可以跳过。

导数，代表了一个参数在一个函数曲线中的变化方式。所以在Grident Descent这个算法中，我们计算导数的目的就是为了更新相对应的参数。简而言之，你需要更新哪个参数，就对哪个参数求导。

比如我们要更新a:

深度学习梯度计算公式及方法（五分钟机器学习）(6)

Eq4: a 的导数

你可以看到这个计算的起点是LOSS，终点是a 也就是说，我们要找到Loss 和a的关系。而对于LOSS中只有的y_pred这一项和a相关，其余都是无关项(可以忽略），所以可以得到：

深度学习梯度计算公式及方法（五分钟机器学习）(7)

Eq5: a的导数（2）

其中，

深度学习梯度计算公式及方法（五分钟机器学习）(8)

Eq6: L/y_pred

深度学习梯度计算公式及方法（五分钟机器学习）(9)

Eq7: y_pred/a

所以，综合 Eq 6和Eq 7我们可以求到ga:

深度学习梯度计算公式及方法（五分钟机器学习）(10)

Eq8: ga

同理，我们计算gb。对于LOSS，只有的y_pred这一项和b相关，其余都是无关项(可以忽略），所以可以得到:

深度学习梯度计算公式及方法（五分钟机器学习）(11)

Eq9: gb

其中，

深度学习梯度计算公式及方法（五分钟机器学习）(12)

Eq10: y_pred/b

所以最终：

深度学习梯度计算公式及方法（五分钟机器学习）(13)

Eq11: gb最终表达式

STEP 5：用导数更新参数值

现在我们有了导数，也就是方向了。在我们当前a b 的值的情况下，我们将这个导数乘上一个learning rate（也就是步长），再更新现有的a b 值。

深度学习梯度计算公式及方法（五分钟机器学习）(14)

Eq12: 用导数更新模型的参数

STEP 6：重复2~5，直到模型收敛

最后，我们重复以上的计算过程。直到模型Loss 变得足够低，或者导数为0。

为了让你更直观的感受到参数更新的过程，下面3个图（Fig 3~5）分别表示用导数更新ab值之后y_pred分布和y_true分布的对比。你可以看到，当我们应用了Gradient Descent这个方法越多次，模型的实际输出（Current Learned Distribution）和理论分布（Ideal Distribution）越相似。

深度学习梯度计算公式及方法（五分钟机器学习）(15)