聚类分析如何对不同类进行分析（能够同时利用分类变量和连续变量对个案进行聚类的方法）

小君 2022-12-22 09:05:34 434

聚类分析如何对不同类进行分析（能够同时利用分类变量和连续变量对个案进行聚类的方法）（注意：两步聚类也可以只针对连续型变量进行聚类，此时距离测量方法选为“欧式距离”，就和前面介绍的k-mean聚类一样了。当有分类变量选入时，必须将距离测量方式选为“对数似然”，当然这也是系统强制的，你会发现“欧式”距离选项为灰色。另外系统默认对连续型变量进行标准化处理。）第二步：将分类变量和连续变量分别选入对应的变量框中。梳理该问题的处理需求：我们需要依据3个分类变量和3个连续型变量对个案进行聚类。回顾我们前面介绍的两种方法，K-mean聚类和系统聚类，它们都不能直接支持依据分类变量对个案进行聚类，看来需要引入新的方法，这个方法就是两步聚类法。下面介绍一下两步聚类的步骤，有关两部聚类的原理和操作步骤演示，后面我会找时间做成视频课程放在网易云课堂上。第一步：导入数据。选择分析<分类<两步聚类。

聚类分析如何对不同类进行分析（能够同时利用分类变量和连续变量对个案进行聚类的方法）(1)

对之前推送的两篇有关聚类分析的文章进行简单的回顾：

《K-mean聚类（快速聚类）》介绍了根据连续变量对个案进行聚类。

《系统聚类（针对变量的聚类）》介绍了对连续型数据的多个变量进行聚类。

但是如果用来聚类的变量有分类变量该如何处理呢？请看下面这个案例。如下图所示是临床诊断中，收集到的病人的一些人口特征数据和生化病理指标数据，想要根据这些数据，将病人分成不同的类别，该选用何种方法呢？

聚类分析如何对不同类进行分析（能够同时利用分类变量和连续变量对个案进行聚类的方法）(2)

梳理该问题的处理需求：我们需要依据3个分类变量和3个连续型变量对个案进行聚类。回顾我们前面介绍的两种方法，K-mean聚类和系统聚类，它们都不能直接支持依据分类变量对个案进行聚类，看来需要引入新的方法，这个方法就是两步聚类法。

下面介绍一下两步聚类的步骤，有关两部聚类的原理和操作步骤演示，后面我会找时间做成视频课程放在网易云课堂上。

第一步：导入数据。选择分析<分类<两步聚类。

第二步：将分类变量和连续变量分别选入对应的变量框中。

（注意：两步聚类也可以只针对连续型变量进行聚类，此时距离测量方法选为“欧式距离”，就和前面介绍的k-mean聚类一样了。当有分类变量选入时，必须将距离测量方式选为“对数似然”，当然这也是系统强制的，你会发现“欧式”距离选项为灰色。另外系统默认对连续型变量进行标准化处理。）

聚类分析如何对不同类进行分析（能够同时利用分类变量和连续变量对个案进行聚类的方法）(3)

第三步：设置完毕后，点击确定，得到如下图所示的模型结果。（是的，你没看错，直接输出的模型就是这样，意思是输入了6个变量，根据这6个变量，将所有病人个案分成了4类。聚类质量不是特别好，但是不算差了。）

聚类分析如何对不同类进行分析（能够同时利用分类变量和连续变量对个案进行聚类的方法）(4)

第四步：阅读具体的模型结果。双击输出窗口中如上图所示的模型，会出现如下图所示窗口。用鼠标点击两个红色箭头指向的区域，可以浏览模型。

聚类分析如何对不同类进行分析（能够同时利用分类变量和连续变量对个案进行聚类的方法）(5)

第五步：模型解释，单击左边的第二个类别（编号为2），会出现右边第2个类别具体的特征，表现为“高胆固醇”、“男性”、“正常血压”以及该组内的钠含量、年龄、钾含量的均值。

聚类分析如何对不同类进行分析（能够同时利用分类变量和连续变量对个案进行聚类的方法）(6)

第六步：查看用于分类的变量的重要性。在右边的窗口中，通过点击鼠标到“预测变量重要性”来查看变量的重要性。如下图所示，最重要的是“胆固醇含量”，最不重要的是“钾含量”。对于不那么重要的变量，其实我们可以将它们去掉，不再用于聚类，读者朋友可以通过阅读原文下载数据进行练习。

聚类分析如何对不同类进行分析（能够同时利用分类变量和连续变量对个案进行聚类的方法）(7)

通过上面的聚类过程，我们可以依据前三个重要的聚类依据（胆固醇、性别、血压）将病人分成4个类别：

本文参考张文彤《SPSS统计分析高级教程》

更加详细的操作讲解和原理分析，请期待2个月后的视频课程。如需练习，点击阅读原文下载数据。

网站首页

返回栏目