机器学习常用的几种距离计算方法（机器学习常用的几种距离计算方法）

小君 2023-06-23 02:13:24 67

机器学习常用的几种距离计算方法（机器学习常用的几种距离计算方法）也就是说，给定两个属性向量 A 和 B，其余弦距离（也可以理解为两向量夹角的余弦）由点积和向量长度给出，如下所示：所以：余弦距离（又称余弦相似性）两个向量间的余弦值可以通过使用欧几里德点积公式求出：a⋅b=∥a∥∥b∥cosθ

通常情况下，在聚类算法中，样本的属性主要由其在特征空间中的相对距离来表示。这就使得距离这个概念，对于聚类非常重要。以下是几种最常见的距离计算方法。

欧式距离（又称 2-norm 距离）

在欧几里德空间中，点 x=(x1 … xn) 和 y=(y1 … yn) 之间的欧氏距离为：

机器学习常用的几种距离计算方法（机器学习常用的几种距离计算方法）(1)

在欧几里德度量下，两点之间线段最短。

余弦距离（又称余弦相似性）

两个向量间的余弦值可以通过使用欧几里德点积公式求出：

a⋅b=∥a∥∥b∥cosθ

所以：

机器学习常用的几种距离计算方法（机器学习常用的几种距离计算方法）(2)

也就是说，给定两个属性向量 A 和 B，其余弦距离（也可以理解为两向量夹角的余弦）由点积和向量长度给出，如下所示：

机器学习常用的几种距离计算方法（机器学习常用的几种距离计算方法）(3)

这里的 Ai 和 Bi 分别代表向量 A 和 B 的各分量。

曼哈顿距离（Manhattan Distance 又称 1-norm 距离）

曼哈顿距离的定义，来自于计算在规划为方型建筑区块的城市（如曼哈顿）中行车的最短路径。

假设一个城市是完备的块状划分，从一点到达另一点必须要按照之间所隔着的区块的边缘走，没有其他捷径（如下图）：

机器学习常用的几种距离计算方法（机器学习常用的几种距离计算方法）(4)

因此，曼哈顿距离就是：在直角坐标系中，两点所形成的线段对 x 和 y 轴投影的长度总和。

从点 (x1 y1) 到点 (x2 y2)，曼哈顿距离为：

|x1−x2| |y1−y2|