数据分析方法聚类算法(图解机器学习-聚类)
数据分析方法聚类算法(图解机器学习-聚类)代码如下A班级学生样本数据如下(20名同学),其中性别0代表女,1代表男,我们先假设性别未知。两个n维向量a(x11 x12 … x1n)与 b(x21 x22 … x2n)间的欧氏距离如下图:K均值算法伪代码,来自周志华《机器学习》我们现在结合图例和python代码一步一步分析,帮助大家理解。
聚类任务的定义“物以类聚,人以群分”,聚类就是找出事物内在性质和隐性的规律,然后把具有相同或者相似性质的事物聚集在一 起的过程。
在无监督学习中,样本的标记是未知的,聚类任务的目标就是将数据集中的样本划分为若干个通常不相交的子集,通过对无标记样本的训练来发现数据的内在性质和隐性的规律。
举个例子,我们通过A班级学生的身高和体重数据,这里样本假定不知道是男生还是女生,也就是无监督学习中男女生标记是未知的,这样就可以通过聚类任务得到哪些样本最可能是男生,哪些样本最可能是女生。
聚类的相似性度量欧氏距离(Euclidean Distance)是聚类相似性计算距离的一种方法,来自几何数学中计算两点间的距离公式。
两个n维向量a(x11 x12 … x1n)与 b(x21 x22 … x2n)间的欧氏距离如下图:
K均值算法伪代码,来自周志华《机器学习》
图解分析我们现在结合图例和python代码一步一步分析,帮助大家理解。
A班级学生样本数据如下(20名同学),其中性别0代表女,1代表男,我们先假设性别未知。
代码如下
- 先根据学生的性别数得到聚类簇数k=2(男和女)。
- 先根据k=2随机选取两个样本身高作为初始的均值向量,为了说明方便,这里假定选取前两个样本x1和x2,即当前均值向量u1=x1=(156 50),u2=x2=(160 60) 。
- 根据K均值算法先计算x1=(156 50)与当前均值向量u1,u2的距离分别为0,10.77,显然x1和u1距离最短,因此x1暂被归入类0中。
- 对数据集中的所有样本遍历一遍,即计算x2,x3......xm与当前均值向量u1,u2的距离。
- 得到当前类簇 类0 ={1 6 7},类1 ={2 3 4 5 8 9 10 11 12 13 14 15 16 17 18 19 20}。
- 从类0和类1中再得到新的均值向量u1,u2。
- 更新均值向量后,重复上述步骤3到步骤6,直到算法达到停止条件(一般是均值不再更新)。
- 经过4轮迭代后得到最终的类划分,如下图所示。
大家对代码还有哪些不明白或者需要源代码的请关注加私信联系,我尽可能回复。
机器学习对数学基础和理论要求较高,我尽量避免复杂的数学公式推导,利用代码和图例和大家讲解,代码也避免使用sklearn、scipy、tensorflow等封装好的函数直接得出结果,那样会隐藏很多实现细节。
下次再结合代码和图例讲解原型聚类的另外一个算法---学习向量量化(LVQ)。