spss聚类分析和相关度分析(分类分析之K-均值聚类)
spss聚类分析和相关度分析(分类分析之K-均值聚类)图四选择分析-分类-K均值分类通过描述统计可以看出数据波动较大,且维度间的量纲差距也较大,因此在K均值分析前需要将数据进行标准化,去除量纲影响。图三在分析——描述性统计中对话框中勾选将标准化值另存为变量即可完成数据的标准化。
K均值聚类的定义及相关基础知识大家自行百度查询,这里不做赘述;本文主要从实操角度介绍K均值聚类的spss操作方法及一直困扰大家的K值选择问题。本文中的案例数据,如有需要的可以评论留言获取,支持邮箱或百度网盘!
一、SPSS K均值聚类的基本步骤1、数据读取,并检查数据质量(图一)
图一
图二
通过描述统计可以看出数据波动较大,且维度间的量纲差距也较大,因此在K均值分析前需要将数据进行标准化,去除量纲影响。
图三
在分析——描述性统计中对话框中勾选将标准化值另存为变量即可完成数据的标准化。
二、K均值分析选择分析-分类-K均值分类
图四
变量选择标准化后的数据,个案选择客户ID,初始聚类数选择K=5 最大清代次数选择99
图五
同时保存聚类成员与中心距离
图六
勾选选项中的相关菜单
图七
三、结果解读1、初始聚类中心与经过迭代计算后的聚类中心,一共经过18次迭代实现收敛
图八
图九
图10
2、ANOVA 表记录了假设检验的结果,结果显著表明聚类有效
图11
3、根据积累结果绘制三维散点图,根据实际业务场景进行应用
图12
上面的步骤简要介绍了K均值聚类的方法步骤,但是大家肯定好奇为什么选择初始K值为5,而不选的别的数字,下面就介绍一下关于K值选择的方法。1、根据业务场景明确需要的聚类数目,一般RMF聚类选择则3;
2、根据不同K值的误差均方和变化,选择合适的K值(肘线法)
图13
选择考K=5,或者K=6时,达到误差下降的拐点。