聚类算法的k值如何确定(分类分析之K均值聚类)
聚类算法的k值如何确定(分类分析之K均值聚类)【注】来源于 古诗文网该词写作特点上片侧重正面描写桂花质地之美,从形到神、由表及里,表现出贵而不俗、月朗风清的神韵,重在精神气质;下片则运用对比手法,进一步衬托桂花的高雅,重在随感,带有较为浓郁的主观感受。上下合璧,借花抒情,便成了一篇回味无穷的小调。【赏析】这是一首咏花词。咏花而志不在花,只是借花形、花态、花性以挥发开去,抒引出词人胸中的万千感慨。结尾句“熏透愁人千里梦,却无情”,终于点出个“愁”字来。这两句语意自然十分明了,其未点透处却是词人含嗔带斥地指责的对象,不外桂花与梅花和丁香之间,虽皆可诠释得通,如以作者的明贬暗誉的手法来看,这里指的该是金花玉叶的桂花。这个结尾,似是词人谓桂子:我是如此执着地倾心于你质地高雅、不媚不俗,而你却竟以沁人的馥香惊扰了我的千里梦,却也太无情了。
序曲摊破浣溪沙·揉破黄金万点轻
【宋】李清照
揉破黄金万点轻。剪成碧玉叶层层。风度精神如彦辅,大鲜明。
梅蕊重重何俗甚,丁香千结苦粗生。熏透愁人千里梦,却无情。
【赏析】
这是一首咏花词。咏花而志不在花,只是借花形、花态、花性以挥发开去,抒引出词人胸中的万千感慨。
结尾句“熏透愁人千里梦,却无情”,终于点出个“愁”字来。这两句语意自然十分明了,其未点透处却是词人含嗔带斥地指责的对象,不外桂花与梅花和丁香之间,虽皆可诠释得通,如以作者的明贬暗誉的手法来看,这里指的该是金花玉叶的桂花。这个结尾,似是词人谓桂子:我是如此执着地倾心于你质地高雅、不媚不俗,而你却竟以沁人的馥香惊扰了我的千里梦,却也太无情了。
该词写作特点上片侧重正面描写桂花质地之美,从形到神、由表及里,表现出贵而不俗、月朗风清的神韵,重在精神气质;下片则运用对比手法,进一步衬托桂花的高雅,重在随感,带有较为浓郁的主观感受。上下合璧,借花抒情,便成了一篇回味无穷的小调。
【注】来源于 古诗文网
聚类分析简介聚类分析是从事物数量上的特征出发对事物进行分类,是数值分类学和多元统计技术结合的结果,其使用简便,分类效果较好,是常用的数据探索性分析工具。从统计技术上,聚类分析并不是一种纯粹的统计技术,其方法基本上与分布理论和显著性检验无关,一般不用于从样本推断总体的研究。
聚类分析(Cluster Analysis),基本思想是依据事物的数值特征,来观察各样本之间的亲疏关系。而样本之间的亲疏关系则由样本是直接的距离来衡量,一旦样本之间的距离定义之后,则把距离近的样本归为同一类。也就是通过分类,使得同一个组内的数据对象具有较高的相似度,而不同组内的数据对象是不相似的。
从机器学习上看,聚类分析属于无监督的学习方法,不依靠事先已知的数据分类,也不依靠标有数据类别的训练样本集合。如此,聚类分析是一种通过观察的学习方法(Learning by observation),而不是通过示例去学习规则(Learning by Example)。
依据样本分类还是变了分类,聚类分析可分为:
- Q型聚类:按样本进行分类,把性质相近的样本分在同一个类,性质差异较大的样本分在不同的类。
- R性聚类:以变量作为分类对象,主要用于变量数目比较多、且相关性比较强的情形,目的是将性质相近聚为同一个类,并从中找出代表变量,从而减少变量个数以达到降维的效果。
在SPSS中,提供以下三种分析方法:
- K-均值聚类法:使用较大样本的样品聚类,聚类变量通常为数值变量。
- 两步聚类法 Two-Step:适用于特大样本的样品聚类,聚类变量中可同时包含数值变量和分类变量。
- 系统聚类法:适用于小样本的样本聚类或变量聚类,聚类变量可以是数值变量,也可以是分类变量,但最好不是二者的混合。
K均值是使用最广泛的算法。在给定一个数据集和需要划分的数目K后,该算法可以根据某个距离函数反复把数据集分为k个簇,直到收敛为止。
- 局限性:K-Means算法对噪音和异常值非常敏感。但具有简洁、高效的特点,时间复杂度为O(t);
- 劣势:需要事先给定k
对于k均值聚类,聚类个数需大于等于2,但不能大于样本数;并且所有的指标必须为连续性变量,且只适用于样本聚类,即Q型聚类。
K均值具体实施步骤:
- 指定聚类数目K
- 确定K个初始类中心点。常用方法:经验选择法、随机选择法、最小最大法
- 根据最近原则进行聚类。依次计算每个样本点到 K 个类中心点的欧式距离,并按照与k个类中心点聚类最近的原则,将所有样本点分派到最近类,形成k个类
- 重新确定k各类中心点。重新计算k个类的中心点,中心点确定原则:依次计算各类中国内所有数据点变量的均值,并以均值的作为K个类的中心点
- 判断是否已经满足终止聚类的条件。
示例:某医院康复专科门诊为修复耳缺损,测量300个病人正常侧耳朵的5项指标:耳长(EC)、耳宽(EK) 、耳外展距(EZ) 、耳型(EX) 、耳垂型(ECX) 。根据EC/EK/EZ计算两个指数:耳指数 EI = 耳宽/耳长 * 100%;外展指数(AI) = 耳外展距/耳宽*100%。
1.打开 分析—分类—k-均值
2. 参数选择与说明
(1)主页面
- 变量:选择需分析的数值型变量
- 个案标注依据:选择标签变量,在结果中标识观测记录
- 聚类数:指定聚类的格式,默认为2,本例中选择4
- 方法:
---- 迭代与分类:先指定初始类别中心,然后按k均值算法迭代分类
---- 仅分类:选定初始类别中心点后,只做分类而不再对中心点做任何更改
结合上述两个方法,可提高大型数据的分析效率:
- 首先从所有数据中抽取较小样本,用“迭代与分类”进行聚类,并保持聚类中心
- 然后针对所有数据用“仅分类”再次聚类,并读入前面保存的聚类中心
- 聚类中心:设置与聚类中心有关的参数
a.读取初始距离中心:可指定初始类中心
-- 打开数据集:选中后在下拉列表中指定一个当前打开的数据集
-- 外部数据文件:选择存有初始类中心的文件
b. 写入最终聚类中心:选择如何保存聚类结果的中心
-- 新数据集:建立一个新数据集,选择后,指定数据集的名称
-- 数据文件:将结果写入一个外部文件
(2)迭代 页面
- 最大迭代次数:范围1-999,默认为10
- 收敛性标准:范围为0-1,默认为0
- 使用运行平均值:若选择,表示每个样本被分配到一类后,即计算新的中心;不选择,表示完成了对所有样本的分配后,再计算新的类中心;不选择,则节省运行时间
(3)保存 页面
- 聚类成员:表示用一个新变量(默认为QCL_1)保存各观测量最终被分配到哪一类,取值方位从1到聚类个数
- 与聚类中心的距离:表示用一个新变量(默认为QCL_2)保存各观测量到最终所属的类中心的欧式距离
(4)选项 页面
- 初始聚类中心:输出初始的类中心,默认选项
- Anova表:输出方差分析表,包括对每个聚类的变量的F检验,若所有观测最终被归为一个类别,则不输出任何方差分析表
- 每个个案的聚类信息:输出每个样本的详细分类信息,包括它的所属类别、到所属类中心的距离等
- 缺失值:指定处理缺失值的方式。
3.结果输出与解释
(1)初始聚类中心
- 一般看生存分析比例与期末累计生存分析比例,以时间间隔1为例,生存分析比例为0.93,其为进入时间间隔人数294减去终端事件数20再除以294的结果,反映的是1期的生存概率;
(2)迭代历史记录
- 到第11次,聚类结果收敛
(3)最终聚类中心
(4)方差分析
- 从方差分析表看,五个聚类变量在各类间的均数差异都有统计学意义,表明对聚类分析均有作用。
(5)样本分布
- 从下表可看出每个类别的样本数。
(6)结果展示
4.语法
******************** k-均值聚类 ******************.
QUICK CLUSTER EC EK EZ EI AI
/MISSING=LISTWISE
/CRITERIA=CLUSTER(4) MXITER(20) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER DISTANCE
/PRINT INITIAL ANOVA.