机器学习常用的几种距离计算方法(机器学习常用的几种距离计算方法)
机器学习常用的几种距离计算方法(机器学习常用的几种距离计算方法)也就是说,给定两个属性向量 A 和 B,其余弦距离(也可以理解为两向量夹角的余弦)由点积和向量长度给出,如下所示:所以:余弦距离(又称余弦相似性)两个向量间的余弦值可以通过使用欧几里德点积公式求出:a⋅b=∥a∥∥b∥cosθ
通常情况下,在聚类算法中,样本的属性主要由其在特征空间中的相对距离来表示。这就使得距离这个概念,对于聚类非常重要。以下是几种最常见的距离计算方法。
欧式距离(又称 2-norm 距离)
在欧几里德空间中,点 x=(x1 … xn) 和 y=(y1 … yn) 之间的欧氏距离为:
在欧几里德度量下,两点之间线段最短。
余弦距离(又称余弦相似性)
两个向量间的余弦值可以通过使用欧几里德点积公式求出:
a⋅b=∥a∥∥b∥cosθ
所以:
也就是说,给定两个属性向量 A 和 B,其余弦距离(也可以理解为两向量夹角的余弦)由点积和向量长度给出,如下所示:
这里的 Ai 和 Bi 分别代表向量 A 和 B 的各分量。
曼哈顿距离(Manhattan Distance 又称 1-norm 距离)
曼哈顿距离的定义,来自于计算在规划为方型建筑区块的城市(如曼哈顿)中行车的最短路径。
假设一个城市是完备的块状划分,从一点到达另一点必须要按照之间所隔着的区块的边缘走,没有其他捷径(如下图):
因此,曼哈顿距离就是:在直角坐标系中,两点所形成的线段对 x 和 y 轴投影的长度总和。
从点 (x1 y1) 到点 (x2 y2),曼哈顿距离为:
|x1−x2| |y1−y2|