快捷搜索:  汽车  科技

机器学习线性判别法(核方法和径向基函数的基础知识)

机器学习线性判别法(核方法和径向基函数的基础知识)最优线性回归是最小化模型预测与目标输出y之间的平方距离的线性回归。将这个误差最小化就能得到最优解决方案。通过对线性回归方程的解析解的研究,我们可以理解如何使用核方法来生成非线性映射。在回归问题中,我们试图估计从X推断出Y的最优函数。如果X和Y之间是非线性关系,就不能简单地在此数据上拟合线性模型。核方法的目标是使用这些线性模型,同时创建非线性关系。核方法通过将数据转换为更高维度的数据并在此基础上拟合一个线性模型来实现这一点。通过这样做,我们可以有效地在原始输入空间中拟合一个高阶模型。线性回归

机器学习线性判别法(核方法和径向基函数的基础知识)(1)

介绍

偏差-方差问题是机器学习面临的主要问题。如果机器学习模型过于简单,则该模型将难以找到输入和输出之间的关系。如果机器学习模型太复杂,那么它在训练中会表现得比较好,但在生产数据上的性能会有很大的差异,复杂的模型通常计算成本也会更高。在理想情况下,我们想要一个简单的机器学习模型,它可以快速训练,并且可以找到输入和输出之间的复杂关系。核方法通过将数据的输入空间映射到高维特征空间,在高维特征空间中可以训练简单的线性模型,从而得到高效、低偏差、低方差的机器学习模型。

核方法

机器学习中使用了很多核方法,其中支持向量机(support vector machine SVM)是最常用的核方法。此外,核方法最适合于中小型数据集。

核方法使用核(或基函数)将输入数据映射到不同的空间。在映射之后,可以在新的特征空间而不是输入空间上训练简单模型,这可以提高模型的性能。

本文将重点介绍径向基函数,这是一个非常简单且很常见的核。

线性回归和 RBF

在回归问题中,我们试图估计从X推断出Y的最优函数。如果X和Y之间是非线性关系,就不能简单地在此数据上拟合线性模型。核方法的目标是使用这些线性模型,同时创建非线性关系。

核方法通过将数据转换为更高维度的数据并在此基础上拟合一个线性模型来实现这一点。通过这样做,我们可以有效地在原始输入空间中拟合一个高阶模型。

线性回归

通过对线性回归方程的解析解的研究,我们可以理解如何使用核方法来生成非线性映射。

机器学习线性判别法(核方法和径向基函数的基础知识)(2)

最优线性回归是最小化模型预测与目标输出y之间的平方距离的线性回归。将这个误差最小化就能得到最优解决方案。

机器学习线性判别法(核方法和径向基函数的基础知识)(3)

我们可以进行微分,以找到产生最小误差的权重向量。结果是伪逆解。

要正确理解公式,您必须熟悉每个变量的维度:

机器学习线性判别法(核方法和径向基函数的基础知识)(4)

输入数据X是(Nxd)维,其中N是数据点的数量,d是特征的数量。因此,逆计算将是一个(dxd)矩阵,得到的权重矩阵是a(dx1)。权重向量与输入数据中的特征具有相同的维数。这很有用,因为当我们从X推断Y时,我们取权重和输入数据之间的点积,因此输入的维数必须和我们的权重相同。

高维空间中的线性回归

核方法通过使用核(或一组 M 个基函数)将数据矩阵 X 映射到新的矩阵 U。新矩阵具有更高的维数(NxM,其中 M ≥ d)。

机器学习线性判别法(核方法和径向基函数的基础知识)(5)

我们可以通过采用M个基函数(ϕ)来构造一个矩阵U,每个基函数都用它们的均值和标准差进行参数化。上式中均值的维数为(dx1)。因此,对于输入空间中的每个数据点,我们应用M个基函数,将输入维数(Nxd)转换为一个新的矩阵(NxM)。

RBF 使用高斯基函数。每个基函数代表输入空间中的高斯分布。每个数据点都在所有高斯分布中进行评估。结果是输入向量从 d 维到 M 维的映射。

要选择参数化这些高斯分布的均值和标准差,可以使用 k 均值聚类来获得均值和标准差来参数化基函数。

现在我们有了矩阵U,我们已经将输入数据映射到了高维空间,我们可以在这个新的特征空间中拟合一个线性模型。

机器学习线性判别法(核方法和径向基函数的基础知识)(6)

对我们的新权重向量l 进行微分,我们可以发现最优解与输入数据中线性回归器的最优解相同.

这里要注意的关键点是我们的权重向量(l)现在是一个Mx1向量,在原始输入空间中,权重向量是一个dx1向量(M>d)。

数据示例

机器学习线性判别法(核方法和径向基函数的基础知识)(7)

这是合成的非线性数据。有10000个数据点,Y坐标是一维的。这意味着数据矩阵X的维数是(10 000x1)。我们可以尝试通过使用上面看到的伪逆解计算最佳权重来拟合该数据的线性模型。显然,正如您在上面看到的那样,它的表现并不好。

通过在高维特征空间中拟合相同的线性模型,我们可以更好地近似数据中的真实关系。

首先,我们将 200 个基函数应用于每个数据点。在输入空间中采用 200 个高斯分布,并评估所有基函数的每个数据点。新矩阵现在是 (10 000x200) 维。然后使用相同的伪逆解来获得这个新特征空间中的最佳权重。

机器学习线性判别法(核方法和径向基函数的基础知识)(8)

可以看到,RBF模型估计的关系是非线性的,对数据拟合也很好。请记住,这个新模型仍然是一个线性回归器!但是因为我们将它拟合到我们的新特征空间中,所以我们间接地在原始输入空间中拟合了一个复杂的非线性模型。

最后

核方法使用核(或一组基函数)将我们的低维输入空间映射到高维特征空间。当在新的特征空间中训练一个线性模型(ax b类似的线性模型)时,我们实际上是在原始输入空间中训练一个高阶模型(例如ax² bx c)。通过这样做,您既保留了简单模型的所有优势(如训练速度、具有解析解、方差更低),也获得了更复杂模型的优势(更好的映射、更低的偏差)。

猜您喜欢: