聚类算法的k值如何确定（分类分析之K均值聚类）

逗爷 2023-03-30 09:10:23 813

聚类算法的k值如何确定（分类分析之K均值聚类）【注】来源于古诗文网该词写作特点上片侧重正面描写桂花质地之美，从形到神、由表及里，表现出贵而不俗、月朗风清的神韵，重在精神气质；下片则运用对比手法，进一步衬托桂花的高雅，重在随感，带有较为浓郁的主观感受。上下合璧，借花抒情，便成了一篇回味无穷的小调。【赏析】这是一首咏花词。咏花而志不在花，只是借花形、花态、花性以挥发开去，抒引出词人胸中的万千感慨。结尾句“熏透愁人千里梦，却无情”，终于点出个“愁”字来。这两句语意自然十分明了，其未点透处却是词人含嗔带斥地指责的对象，不外桂花与梅花和丁香之间，虽皆可诠释得通，如以作者的明贬暗誉的手法来看，这里指的该是金花玉叶的桂花。这个结尾，似是词人谓桂子：我是如此执着地倾心于你质地高雅、不媚不俗，而你却竟以沁人的馥香惊扰了我的千里梦，却也太无情了。

序曲

摊破浣溪沙·揉破黄金万点轻

【宋】李清照

揉破黄金万点轻。剪成碧玉叶层层。风度精神如彦辅，大鲜明。

梅蕊重重何俗甚，丁香千结苦粗生。熏透愁人千里梦，却无情。

【赏析】

这是一首咏花词。咏花而志不在花，只是借花形、花态、花性以挥发开去，抒引出词人胸中的万千感慨。

结尾句“熏透愁人千里梦，却无情”，终于点出个“愁”字来。这两句语意自然十分明了，其未点透处却是词人含嗔带斥地指责的对象，不外桂花与梅花和丁香之间，虽皆可诠释得通，如以作者的明贬暗誉的手法来看，这里指的该是金花玉叶的桂花。这个结尾，似是词人谓桂子：我是如此执着地倾心于你质地高雅、不媚不俗，而你却竟以沁人的馥香惊扰了我的千里梦，却也太无情了。

该词写作特点上片侧重正面描写桂花质地之美，从形到神、由表及里，表现出贵而不俗、月朗风清的神韵，重在精神气质；下片则运用对比手法，进一步衬托桂花的高雅，重在随感，带有较为浓郁的主观感受。上下合璧，借花抒情，便成了一篇回味无穷的小调。

【注】来源于古诗文网

聚类分析简介

聚类分析是从事物数量上的特征出发对事物进行分类，是数值分类学和多元统计技术结合的结果，其使用简便，分类效果较好，是常用的数据探索性分析工具。从统计技术上，聚类分析并不是一种纯粹的统计技术，其方法基本上与分布理论和显著性检验无关，一般不用于从样本推断总体的研究。

聚类分析（Cluster Analysis），基本思想是依据事物的数值特征，来观察各样本之间的亲疏关系。而样本之间的亲疏关系则由样本是直接的距离来衡量，一旦样本之间的距离定义之后，则把距离近的样本归为同一类。也就是通过分类，使得同一个组内的数据对象具有较高的相似度，而不同组内的数据对象是不相似的。

从机器学习上看，聚类分析属于无监督的学习方法，不依靠事先已知的数据分类，也不依靠标有数据类别的训练样本集合。如此，聚类分析是一种通过观察的学习方法（Learning by observation），而不是通过示例去学习规则（Learning by Example）。

依据样本分类还是变了分类，聚类分析可分为：

Q型聚类：按样本进行分类，把性质相近的样本分在同一个类，性质差异较大的样本分在不同的类。
R性聚类：以变量作为分类对象，主要用于变量数目比较多、且相关性比较强的情形，目的是将性质相近聚为同一个类，并从中找出代表变量，从而减少变量个数以达到降维的效果。

在SPSS中，提供以下三种分析方法：

K-均值聚类法：使用较大样本的样品聚类，聚类变量通常为数值变量。
两步聚类法 Two-Step：适用于特大样本的样品聚类，聚类变量中可同时包含数值变量和分类变量。
系统聚类法：适用于小样本的样本聚类或变量聚类，聚类变量可以是数值变量，也可以是分类变量，但最好不是二者的混合。

K-均值聚类简介

K均值是使用最广泛的算法。在给定一个数据集和需要划分的数目K后，该算法可以根据某个距离函数反复把数据集分为k个簇，直到收敛为止。

局限性：K-Means算法对噪音和异常值非常敏感。但具有简洁、高效的特点，时间复杂度为O(t)；
劣势：需要事先给定k

对于k均值聚类，聚类个数需大于等于2，但不能大于样本数；并且所有的指标必须为连续性变量，且只适用于样本聚类，即Q型聚类。

K均值具体实施步骤：

指定聚类数目K
确定K个初始类中心点。常用方法：经验选择法、随机选择法、最小最大法
根据最近原则进行聚类。依次计算每个样本点到 K 个类中心点的欧式距离，并按照与k个类中心点聚类最近的原则，将所有样本点分派到最近类，形成k个类
重新确定k各类中心点。重新计算k个类的中心点，中心点确定原则：依次计算各类中国内所有数据点变量的均值，并以均值的作为K个类的中心点
判断是否已经满足终止聚类的条件。

聚类算法的k值如何确定（分类分析之K均值聚类）(1)

SPSS实现k-均值聚类

示例：某医院康复专科门诊为修复耳缺损，测量300个病人正常侧耳朵的5项指标：耳长（EC）、耳宽（EK）、耳外展距（EZ）、耳型（EX）、耳垂型（ECX）。根据EC/EK/EZ计算两个指数：耳指数 EI = 耳宽/耳长 * 100%；外展指数（AI） = 耳外展距/耳宽*100%。

聚类算法的k值如何确定（分类分析之K均值聚类）(2)

1.打开 分析—分类—k-均值

聚类算法的k值如何确定（分类分析之K均值聚类）(3)

2. 参数选择与说明

（1）主页面

聚类算法的k值如何确定（分类分析之K均值聚类）(4)

变量：选择需分析的数值型变量
个案标注依据：选择标签变量，在结果中标识观测记录
聚类数：指定聚类的格式，默认为2，本例中选择4
方法：

---- 迭代与分类：先指定初始类别中心，然后按k均值算法迭代分类

---- 仅分类：选定初始类别中心点后，只做分类而不再对中心点做任何更改

结合上述两个方法，可提高大型数据的分析效率：

首先从所有数据中抽取较小样本，用“迭代与分类”进行聚类，并保持聚类中心
然后针对所有数据用“仅分类”再次聚类，并读入前面保存的聚类中心
聚类中心：设置与聚类中心有关的参数

a.读取初始距离中心：可指定初始类中心

-- 打开数据集：选中后在下拉列表中指定一个当前打开的数据集

-- 外部数据文件：选择存有初始类中心的文件

b. 写入最终聚类中心：选择如何保存聚类结果的中心

-- 新数据集：建立一个新数据集，选择后，指定数据集的名称

-- 数据文件：将结果写入一个外部文件

（2）迭代页面

聚类算法的k值如何确定（分类分析之K均值聚类）(5)

最大迭代次数：范围1-999，默认为10
收敛性标准：范围为0-1，默认为0
使用运行平均值：若选择，表示每个样本被分配到一类后，即计算新的中心；不选择，表示完成了对所有样本的分配后，再计算新的类中心；不选择，则节省运行时间

（3）保存页面

聚类算法的k值如何确定（分类分析之K均值聚类）(6)

聚类成员：表示用一个新变量（默认为QCL_1）保存各观测量最终被分配到哪一类，取值方位从1到聚类个数
与聚类中心的距离：表示用一个新变量（默认为QCL_2）保存各观测量到最终所属的类中心的欧式距离

（4）选项页面

聚类算法的k值如何确定（分类分析之K均值聚类）(7)

初始聚类中心：输出初始的类中心，默认选项
Anova表：输出方差分析表，包括对每个聚类的变量的F检验，若所有观测最终被归为一个类别，则不输出任何方差分析表
每个个案的聚类信息：输出每个样本的详细分类信息，包括它的所属类别、到所属类中心的距离等
缺失值：指定处理缺失值的方式。

3.结果输出与解释

（1）初始聚类中心

一般看生存分析比例与期末累计生存分析比例，以时间间隔1为例，生存分析比例为0.93，其为进入时间间隔人数294减去终端事件数20再除以294的结果，反映的是1期的生存概率；

聚类算法的k值如何确定（分类分析之K均值聚类）(8)

（2）迭代历史记录

到第11次，聚类结果收敛

聚类算法的k值如何确定（分类分析之K均值聚类）(9)

（3）最终聚类中心

聚类算法的k值如何确定（分类分析之K均值聚类）(10)

（4）方差分析

从方差分析表看，五个聚类变量在各类间的均数差异都有统计学意义，表明对聚类分析均有作用。

聚类算法的k值如何确定（分类分析之K均值聚类）(11)

（5）样本分布

从下表可看出每个类别的样本数。

聚类算法的k值如何确定（分类分析之K均值聚类）(12)

（6）结果展示

聚类算法的k值如何确定（分类分析之K均值聚类）(13)

4.语法

******************** k-均值聚类 ******************. QUICK CLUSTER EC EK EZ EI AI /MISSING=LISTWISE /CRITERIA=CLUSTER(4) MXITER(20) CONVERGE(0) /METHOD=KMEANS(NOUPDATE) /SAVE CLUSTER DISTANCE /PRINT INITIAL ANOVA.

网站首页

返回栏目

聚类算法的k值如何确定（分类分析之K均值聚类）

猜您喜欢：

相关文章