多因素logistic回归分析示范:多元logistic回归分析
多因素logistic回归分析示范:多元logistic回归分析⑴ 建立数据文件口味偏好 sav, 见下图说明:本案例数据纯属编造,结论不具有参考性和科学性, 仅供操作训练使用。因变量:三个及以上分类变量自变量:分类或连续变量协变量:分类变量03.案例及操作【例】为了研究饮食口味偏好的影响因素,分析年龄、婚姻情况、生活态度在饮食口味类型偏好(1=酸、2=甜、3=辣) 中的作用,共挑选被试30人,结果见下表,试进行多元logistics回归。
101. 概念
多元 logistics 回归(multinomial logistics regression)又称多分类 logistics 回归。医学研究、社会科学领域中, 存在因变量是多项的情况, 其中又分为无序(口味:苦、 甜、 酸、 辣;科目:数学、 自然、 语文、 英语) 和有序(辣度:微辣、 中辣、 重辣) 两类。对于这类数据需要用多元 logistics 回归。
多元 logistics 回归实际就是多个二元 logistics 回归模型描述各类与参考分类相比各因素的作用。如, 对于一个三分类的因变量(口味:酸、甜、辣),可建立两个二元logistics回归模型,分别描述酸味与甜味相比及辣味与酸味相比,各口味的作用。但在估计这些模型参数时,所有对象是一起估计的,其他参数的意义及模型的筛选等与二元logistics类似。
02.条件
因变量:三个及以上分类变量
自变量:分类或连续变量
协变量:分类变量
03.案例及操作
【例】为了研究饮食口味偏好的影响因素,分析年龄、婚姻情况、生活态度在饮食口味类型偏好(1=酸、2=甜、3=辣) 中的作用,共挑选被试30人,结果见下表,试进行多元logistics回归。
说明:本案例数据纯属编造,结论不具有参考性和科学性, 仅供操作训练使用。
⑴ 建立数据文件口味偏好 sav, 见下图
每个被试有一个口味偏好因变量taste和3个自变量age、married、inactive。
⑵对口味偏好 taste 加权
单击【数据】→【加权个案】,打开加权个案对话框, 加权口味偏好,见下图
(3)选择【分析】→【回归】→【多项logistics】,打开多项 logistics回归主对话框,见图。
【因变量】:分类变量,本例选择“taste”
【因子】:可选择多个变量作为因子,本例选择“age”、 “married”、“inactive”
【协变量】 :可选择多个变量作为协变量,本例未选择
(4)单击【参考类别】按钮,打开参考类别对话框,见图
【参考类别】:可选择【第一类别】、【最后类别】或【定制】,本例选择【最后类别】
【类别顺序】:可选择【升序】或【降序】
(5)单击【模型】按钮,打开模型对话框,见下图:
本例主要考察自变量age、married、inactive的主效应, 暂不考察它们之间的交互作用,然后点击【继续】;
(6)单击【statistics】按钮,打开统计对话框,见图:
设置模型的统计量。主要【伪R方】【模型拟合信息】【分类表】【拟合优度】这几项必选,其他可以默认不勾选。这些参数主要用于说明建模的质量。
(7)单击【条件】按钮,打开收敛性准则对话框,见下图,默认选项,
(8) 单击【选项】 按钮, 打开选项对话框, 默认选项, 见下图,
(9)单击【保存】按钮,打开保存对话框,勾选【估算响应概率】,估算每个个案三类口味偏好的概率。
(10)单击【确定】 按钮, 得到以下主要结果。
04.结果解释
结果 1 【个案处理摘要表】
列出因变量和自变量的分类水平及对应的个案百分比。建议在此表主要读取变量分类水平的顺序,比如自变量“年龄段”,第一个分类是“0~20 岁”,第二个分类是“21~25”,第三个分类是“26~30”,尤其是看清楚最后一个分类,因为前面参数设置时要求是以最后一个分类最为对比参照组的。
结果 2 【模型拟合信息表】
读取最后一列,显著性值小于 0.05,说明模型有统计意义,模型通过检验。
结果 3 【拟合优度表】
原假设模型不能很好地拟合原始数据,最后一列皮尔逊卡方显著性值 0.343,概率较小,原假设不成立,说明模型对原始数据的拟合没有通过检验。
结果 4【伪 R 方表】
依次列出的 3 个伪 R 方值(类似于决定系数)均偏低,最高 0.836,说明模型对原始变量变异的解释程度较好,只有一小部分信息无法解释,拟合程度比较优秀。
结果 5【模型似然比检验表】
最终进入模型的效应包括截距、年龄、婚姻状况、生活态度,而且最后一列显著性值表明,只有生活态度对模型构成有显著贡献。
结果 6【参数估计表】
列出自变量不同分类水平对口味偏好的影响检验,是多项 logistic 回归非常重要的结果。第二列 B 值,即各自变量不同分类水平在模型中的系数,正负符号表明它们与早餐选择是正比还是反比关系。第六列是瓦尔德检验显著性值,此值小于 0.05 说明对应自变量的系数具有统计意义,对因变量不同分类水平的变化有显著影响。比如,酸和辣相比,21~25岁的年轻人更偏向于选择在酸,这种可能性是 26~30 岁以上人的 3.8 倍;甜和辣相比,结婚与否对口味偏好没有差别。
05.多项 logistic 回归模型
经过对该口味偏好调查数据进行多项 logistic 回归分析, 由参数估计表,我们可以得到模型如下:
G1=LOG[P(酸)/P(辣)]=17.915-56.406age1 1.348age2 19.333married0-19.801inactive0
G2=LOG[P(甜)/P(辣)]=18.609-19.954age1-0.039age2-0.446married0-.022inactive0
G3=0 (对照组)
根据这个模型,我们首先计算某个受访者 G1、G2、G3 的值,然后带入如下公式,最终可得到三个早餐相应的概率。
P1=exp(G1)/[exp(G1) exp(G2) exp(G3)]
P2=exp(G2)/[exp(G1) exp(G2) exp(G3)]
P3=exp(G3)/[exp(G1) exp(G2) exp(G3)]
原始数据最右侧新增3个变量,依次为EST1_1、EST2_1、EST3_1,分别对应因变量“口味偏好”的三个分类水平(酸、 甜、 辣)的响应概率。比如第一个个案,他选择酸的概率为0.67,在三种选择中数值最大,因此,模型会判定他选择酸,这和原始记录的真值一致,说明模型判断准确。
结果 7【分类】
模型在预测辣味偏好倾向上准确率最高,达到100%,其他两个口味偏好的预测略低,模型总体预测准确率为83.9%,表现比较好。前面伪 R 方数据显示,模型对总体变异的解释能力尚可,这和总体预测准确率结论也一致。