消费水平聚类分析,统计方法案例解析
消费水平聚类分析,统计方法案例解析1. 适合处理存在较多类别的定性变量之间的联系三、对应分析的优势对应分析也称为关联分析、R-Q型因子分析,是一种非线性的多元统计分析方法。它通过分析由定性变量构成的交互汇总表来揭示变量间的联系,并将这些联系展示在分布图上,可以直观清晰地揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。二、对应分析的类型根据参与分析的变量数目,对应分析可分为一般对应分析和多元对应分析。一般对应分析是对两个定性变量进行分析,而多元对应分析则是对三个或以上的定性变量的分析。
文章来源:微 信 公 众 号【我看人看我】
01 统计方法简介一、对应分析的应用场景
在社会科学研究中,经常要对定性变量数据进行量化分析,研究不同定性变量之间的关系。若只是考虑变量间的关联,而不关心变量各类别间的关系时,我们通常会使用卡方检验、logisgic 回归的方法进行研究。但在实际研究中,仅知道变量间存在相关性是不够的,探究不同变量的各类别间的内在联系也是定性数据量化分析的重要内容,比如:研究不同性别的顾客对不同品牌商品的偏好,不同职业的人在吸烟行为上的差异,不同职业的顾客对汽车品牌的偏好。
对于这种情况,我们就可以使用对应分析方法,通过图形的方式,来直观地揭示出定性变量之间以及变量各分类之间的联系。
对应分析也称为关联分析、R-Q型因子分析,是一种非线性的多元统计分析方法。它通过分析由定性变量构成的交互汇总表来揭示变量间的联系,并将这些联系展示在分布图上,可以直观清晰地揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。
二、对应分析的类型
根据参与分析的变量数目,对应分析可分为一般对应分析和多元对应分析。一般对应分析是对两个定性变量进行分析,而多元对应分析则是对三个或以上的定性变量的分析。
三、对应分析的优势
1. 适合处理存在较多类别的定性变量之间的联系
2. 能够以图形方式直观地表现变量各类别的联系
3. 每个类别对各个轴的贡献指标可以让研究者进一步解释数据所揭示的模式
对应分析还常与诸如逻辑回归、定性访谈等方法结合使用,比如通过对应分析获取了模式特征、与社会经济因素的关联性后,我们可以进一步通过逻辑回归对模式特征的影响因素做验证性分析,探究社会经济因素在多大程度上对模式特征有影响,哪些因素较为重要;或者通过定性访谈方法,来探究为什么会出现这些模式特征,个体是如何理解、如何做出选择的。
接下来我们将通过一个关于城市中产阶级消费模式的研究,来介绍对应分析方法如何应用于具体的研究中。
02 案例解析:消费模式的多元对应分析研究案例来源:朱迪 《品味与物质欲望:当代中产阶层的消费模式》(第九章),社会科学文献出版社,2013年
一、研究策略
这个研究主要是通过考察消费行为的参与来揭示城市中产阶层的消费模式及分化,主要包括两个研究问题:
(1)城市中产阶层存在什么样的消费模式(消费倾向的性质和程度)?
(2)社会经济指标(如收入、阶层)与这些消费模式存在怎样的联系?
对“阶层”的界定和划分,作者主要关心的是社会分层如何区分生活方式和消费,因此研究中是以职业状况为基础、综合考虑收入和受教育程度来界定中产阶层,具体指的是 CGSS2003(指2003年的中国综合社会调查)中的党政机关企事业单位的负责人( 包括私营企业主) 、中级和一般机关干部、专业人士及技术人员。CGSS2003的数据显示,中产阶级年收入集中在 1 万至 6 万元之间,只有 5. 8% 中产阶级年收入超过 6 万元,接近 52% 的中产阶级的教育程度为全日制大专及以上。
二、数据来源与预处理
(一)数据来源
该研究使用了2003年中国综合社会调查(China General Social Survey,简称“CGSS2003”)的数据作为的统计数据来源。CGSS2003是由中国人民大学社会学系和香港科技大学社会科学部合作主持的全国城镇随机抽样调查。被调查人群为18~69岁居住在中国城镇住户中的成年人。该调查只包括城镇地区,共涉及125个县级单位、559个居委会、5900名被访者,收回有效数据5894条,应答率为77%。调查的内容包括被访者和所在家庭(户)的人口特征、社会网络、教育程度、职业历史以及获得当前工作的过程、户口迁移、认同、消费行为以及有关社会不平等和其他公共关心话题的观点。
(二)变量数据预处理
针对研究问题,需要选择合适的研究变量。如果原始数据不完全匹配研究目的,就需要对原始变量和数据做进一步的转换。但转换的原则是,不改变原有数据和变量的含义。
1. 通过消费行为来衡量消费倾向
该研究从CGSS2003量表数据中选择了六个有关购买和使用物质产品和服务的变量来测量受访者所表现出的主要消费倾向的性质和程度。原始量表如下图,作者只选取了红框中的6个变量:
来源:CGSS2003调查问卷“行为与态度”模块
但作者认为原始变量的数值标签“符合程度”有些语言不详,难以精确表达出消费倾向,因此作者对原始变量做了一定的转换,同意度量表也被转化为了相应的频率量表。转换后的变量如下:
2. 以社会阶层、年龄、收入和居住地区作为关键社会经济指标
应该选择哪些变量来探究社会经济指标与消费模式的联系不是随意性的,而是需要根据既有的研究来选取。该研究根据现有文献,主要选择了与消费模式存在关联的社会阶层、年龄、收入和居住地区这四个变量。但这四个变量所要求的数据形式在CGSS2003数据中并没有现成的,因此需要研究人员对原始数据做进一步的转换。
(1)社会阶层
以职业类型来定义社会阶层,主要分为了7类:a. 企事业单位负责人,b.专业和技术人员(包括中级和一般干部),c. 办事人员;d. 商业服务业人员,e. 个体户,f. 农林牧渔水利业生产人员,g. 生产运输设备操作人员。
(2)年龄
根据原始数据的分布,年龄分为了五组:16~25岁、26~35岁、36~45岁、46~55岁和56岁以上。
(3)收入
根据原始数据的分布,收入分为了5个水平:低于5000元、5000~10000元、10000~30000元、30000~60000元和60000元以上。
(4)居住地区
按照居住地区和是否移民,样本被分为了都市移民、都市本地人和其他城市居民。这里的都市地区指的是北京、上海、天津的城市地区;都市移民指出生后迁移到都市地区的居民;都市本地人指出生于并且调查时居住于都市地区的居民(包括在三个直辖市的城市地区内迁移的人群)。这样区分的目的是考察都市对于消费偏好的影响。
转换后的变量数据(SPSS格式)
三、统计结果解读
该研究使用了stata统计软件来进行多元对应分析,输出的统计结果图表可能会和SPSS软件有所差异,但分析逻辑和结论是一样的。
(一)城市中产阶层的消费模式
首先,以六个消费行为变量作为分析变量进行多元对应分析,得到如下图1的对应分布图。对应分布图是对应分析的核心结果,可以直观地展示出变量各类别之间的对应关系。在对应分布图中,每个变量的类别差异是通过分布图上的分值距离表现出来的,距离越近,说明该类别之间有很强的对应关系;距离越远,则说明该类别之间没有多大的联系。
从图1的分布图中,可以直观地看到城市中产阶层的消费行为分别聚集在四个不同的空间,说明他们的消费形式可分化为了四种消费模式。“频繁地”去餐馆吃饭的人也“频繁地”在较有名的商店购物,拥有的家庭耐用品大多为名牌,使用大量艺术品装饰家庭,也“频繁地”去健身房健身。“有时”参与这些消费行为的人也集中在一个区域,“偶尔”和“从不”也是同样的情况。
图1 城市中产消费行为参与的对应分布图
在图1中,dimension1即轴1括号中的84.3%为方差贡献率,说明轴1可以解释各类别差异的84.3%;而轴2的方差贡献率仅为9.7%,表明轴2只能解释9.7%的方差。也就是说,轴1是解释消费模式差异的主要维度。
再看表1的每种消费行为对每个轴变异的贡献程度,可以发现,轴1主要被“偶尔”和“从不”两种状态所解释,二者的贡献分别占35.5%和36.5%,因此轴1可以被描述为一种“节俭-适度型消费模式”。而轴2的变异贡献主要来自于“频繁”参与这些消费行为的状态,占比达53.1%,因此轴2可以被看作是一种“奢侈型消费模式”。
表1 每种消费行为对每个轴变异的贡献
(二)阶层、年龄、收入和居住地区与消费模式的关联
消费模式主要和阶层、年龄、收入和居住地区有关,所以作者将这四个因素当作补充变量加入多元对应分析中,分别得到图2和图3 的对应分布图。
图2是职业阶层和年龄为补充变量得到的对应分布图,从中我们可以直观地看到年龄和职业阶层两个变量紧密地沿着轴1分布。从左向右,这两个变量按照从白领职业(包括企事业单位负责人、专业和技术人员、办事人员)到(半)体力职业(包括商业服务业人员、个体户、农林牧渔水利业生产人员、生产运输设备操作人员)、从年轻到年长的模式排列。根据分布在轴1左侧和右侧的类别,区分消费模式的界限大体上可以划在白领从业者和(半)体力劳动者之间、小于36岁的人群和大于36岁的人群之间。也就是说,较年长、(半)体力职业阶层的人群和“其他城市居民”较为节俭,而较年轻、白领职业阶层的人群和都市居民则更经常参与多种消费行为(适度消费)。
图2 职业阶层和年龄为补充变量的对应分布图
因为年龄和职业阶层两个变量沿着轴1紧密地分布而且较少有沿着轴2的纵向分布,因此可以认为年龄和职业阶层是轴1所代表的消费模式的最重要影响因素;又因为轴1是解释最多变异的主轴,因此可以说年龄和职业阶层是区分城镇人口消费模式的最重要因素。
图3为收入和居住地区为补充变量的对应分布图。从中我们可以看到,居住地区变量的三个类别:都市移民、都市本地和其他城市居民在轴1和轴2上均有差异,但差异不大,可见居住地区对消费模式的影响并不明显。
图3 收入和居住地区为补充变量的对应分布图
收入是区分图3中的轴2所定义的消费模式的最显著因素。沿着轴2,顶端是年收入60000元及以上,再往下是年收入30000~60000元;其他的收入组集中于轴2的底端,但是年收入5000~10000元和年收入低于5000元两组也沿着轴1分布。高于60000元的收入组尤其接近“频繁地”去餐馆吃饭、“频繁地”在较有名的商店购物、拥有的家庭耐用品大多为名牌、使用大量艺术品装饰家庭、“频繁地”去健身房健身。相应地,30000~60000元的收入组接近“有时”参与这些消费行为,而其他收入分组更接近于“偶尔”或者“从不”参与这些消费行为。
“偶尔”和“有时”状态的位置则十分有趣,这些点接近于白领职业,小于36岁、居住于都市地区以及年收入在10000~60000元。这一区域反映了都市年轻中产阶层消费模式的重要特征——有一定的追求乐趣和舒适的欲望,但是受到收入和较高生活成本的限制,物质欲望和购买力之间存在紧张。
从图3中发现,较富裕的群体更频繁地选择昂贵的、高质量的物质产品和服务,中等收入群体只是有时或偶尔参与这种消费模式,而较贫困的群体则趋于节俭型消费模式(收入沿着轴1分布)。
四、研究发现
通过对城市中产阶层的消费行为的多元对应分析,该研究得出了以下几点发现:
1. 年龄和职业阶层是区分城镇居民消费倾向的最重要因素,出生于20世纪70年代及之后的人群更广泛地参与追求乐趣和舒适的消费活动,可能与其成长的社会文本有关,一定程度反映了我国近30多年来巨大的社会变迁。
2. 白领阶层和(半)体力劳动者之间的消费倾向的区别比白领阶层内部的区别更为显著,尤其是职业中产(企事业单位负责人、专业和技术人员、中级和一般干部)更频繁地参与追求乐趣和舒适的消费行为,体现了这一群体较高的经济资本和文化资本。
3. 居住在都市地区对于消费行为有一定的影响:消费倾向主要的区别在于都市居民和其他城市居民之间,而非都市移民和都市本地人之间,可以推断出移民的品味和生活方式在迁入都市地区后受到了一定程度的影响。
4. 相对于年龄和职业阶层,收入对于消费倾向的区分起了次要的作用,因为由收入定义的轴2比由年龄和职业定义的轴1能够解释的变异要少得多,这说明消费/品味不仅仅是种经济行为,也为社会文本和生活方式——或者布尔迪厄所言之“惯习”所塑造。
5. 虽然追求快乐和舒适的新的消费倾向有所发展,但是节俭-适度的消费模式在城镇居民中仍然占主导地位,这反映了我国还并不富裕的经济发展程度以及传统价值观的影响,更重要的是暗示了城镇居民在物质欲望和购买力之间有意识的取舍。
文章来源: 公 众 号【我看人看我】,主要分享统计分析、SPSS教程、社会科学研究与方法等。