非条件logistic回归教程：二元logit回归

逗爷 2023-01-05 02:44:47 957

非条件logistic回归教程：二元logit回归1、定类变量分析完成X与Y的差异关系之后，筛选出有差异的X，然后再放入模型中，进行二元logit回归；由于自变量中既有定类变量也有定量变量所以二者分别进行。二、一般步骤1.自变量的筛选对于自变量的筛选，可能涉及两个方法一个是卡方分析一个是方差分析，此步不是必须步骤，通过此步可以试探性了解每个自变量X与Y之间的关系，一般来讲差异关系是基础性的判断，影响关系是更深一步的深层次关系，所以在二元logit回归分析前，可以先对X做差异分析，筛选出与Y有差异性的X。对于卡方分析，需要X是定类数据，如果X是定类数据，那么就使用卡方分析去分析差异；如果说X是定量数据，那么可使用方差分析去研究X和Y的差异性。

非条件logistic回归教程：二元logit回归(1)

在研究X对Y的影响时，因变量Y往往是分类变量，这时如果还想分析影响关系可以使用logit回归，常见的logit回归包括，二元logit回归（二项logit回归）、多分类logit回归以及有序logit回归。三者的区别如下：

非条件logistic回归教程：二元logit回归(2)

此案例使用二元logit回归研究患者肾细胞癌转移情况。

一、案例背景

案例中是乳腺癌症患者数据，其中包括“年龄”、“扩散等级”、“肿瘤尺寸变量”，想要建立一个预测因变量“癌变部位的的淋巴结是否含有癌细胞”的模型，并且观测自变量对因变量的影响关系。部分数据如下：

非条件logistic回归教程：二元logit回归(3)

案例的一般步骤如下。

二、一般步骤

非条件logistic回归教程：二元logit回归(4)

1.自变量的筛选

对于自变量的筛选，可能涉及两个方法一个是卡方分析一个是方差分析，此步不是必须步骤，通过此步可以试探性了解每个自变量X与Y之间的关系，一般来讲差异关系是基础性的判断，影响关系是更深一步的深层次关系，所以在二元logit回归分析前，可以先对X做差异分析，筛选出与Y有差异性的X。

对于卡方分析，需要X是定类数据，如果X是定类数据，那么就使用卡方分析去分析差异；如果说X是定量数据，那么可使用方差分析去研究X和Y的差异性。

分析完成X与Y的差异关系之后，筛选出有差异的X，然后再放入模型中，进行二元logit回归；由于自变量中既有定类变量也有定量变量所以二者分别进行。

1、定类变量

由于自变量“扩散等级”是定类变量所以进行卡方检验。

非条件logistic回归教程：二元logit回归(5)

由上表可知，p值＜0.05不同的“扩散等级”对“癌变部位的的淋巴结是否含有癌细胞”具有显著性差异。所以分析时可以将该分析项放入模型中。

2、定量变量

由于“年龄”、“肿瘤尺寸变量”为定量变量，所以可以进行方差分析，点击“开始分析”，对结果进行查看：

非条件logistic回归教程：二元logit回归(6)

由上表可知，两个p值＜0.05说明“年龄”、“肿瘤尺寸变量”对“癌变部位的的淋巴结是否含有癌细胞”均具有显著性差异。同理，分析时可以将分析项放入模型中。

2.数据预处理

（1）因变量

二元logistic回归要求因变量只能为2项，而且数字一定是0和1，案例中因变量为两项，并且数字0表示“No”（即：癌变部位的的淋巴结不含有癌细胞）数字1表示“Yes”（即：癌变部位的的淋巴结含有癌细胞），如果不是这样可以使用【数据处理->数据编码】完成。

非条件logistic回归教程：二元logit回归(7)

（2）自变量

另外，有些数据是定类数据，在进行二元logit分析前可以将数据进行哑变量处理。该案例自变量中“扩散等级”认为是定类变量所以进行哑变量处理。

3.影响关系分析

在确认了可能的影响因素之后，此步骤直接对题进行二元Logit回归分析。对于模型结果，宏观上来讲首先需要看某个题是否呈现出显著性，如果呈现出显著性，那么说明该题对Y有影响关系。具体是正向影响还是负向影响需要结合对应的回归系数值进行说明，如果回归系数值大于0，则说明是正向影响；反之则说明是负向影响。接下来对模型进行查看，分为模型效果和模型结果两部分进行。

三、模型效果

模型效果将从“回归结果基本汇总”、“模型似然比检验结果”、“拟合度检验”三个方面进行说明。

1.回归结果基本汇总

非条件logistic回归教程：二元logit回归(8)

对于分析数据的基本情况进行说明，包括Y值的数据分析和最终分析有效样本量的数据情况，从结果可以看出：“癌变部位淋巴结含有癌细胞情况”因变量总共有1121个样本参加分析，并且没有缺失数据。接下来查看模型似然比检验结果。

2.模型似然比检验结果

非条件logistic回归教程：二元logit回归(9)

首先对p值进行分析，如果该值小于0.05，则说明模型有效；反之则说明模型无效；从上表可以看出p<0.05 所以说明本次构建模型时，放入的自变量具有有效性，本次模型构建有意义。然后对拟合度进行检验查看。

3. 拟合度检验

非条件logistic回归教程：二元logit回归(10)

HL检验原假设为：模型拟合值和观测值的吻合程度一致，如果p值大于0.05则说明通过HL检验，反之则说明模型没有通过HL检验，模型拟合优度差。从结果可以看出p值0.05(Chi=9.175 p=0.328>0.05) 因而说明接受原定假设，即说明本次模型通过HL检验，模型拟合优度较好。

四、模型结果

从模型效果来看，数据没有缺失，并且模型通过似然比检验，模型构建有效，拟合优度也较好，接下来对模型结果进行分析，模型结果将从“模型公式及结果”和“影响关系及大小”两方面进行说明。

1.模型公式及结果

非条件logistic回归教程：二元logit回归(11)

哑变量处理后在分析时需要少放入一项作为，在该案例里，不放入“扩散等级>5cm”放入“扩散等级2-5cm”以及“扩散等级<=2cm”两项。首先看p值，上表可以看出“肿瘤尺寸”和“年龄”两项p值小于0.05其余大于0.05，所以说明“肿瘤尺寸”和“年龄”对于 “癌变部位淋巴结含有癌细胞情况”具有显著性。虽然单分析“扩散等级”对因变量具有显著差异性，但是在总体模型中并未呈现出显著性，这是正常的，因为不同变量之间可能也存在关系。

从上表可知：模型公式为：ln(p/1-p)=-0.398-0.307*“扩散等级_2-5 cm” -0.185*扩散等级_<= 2 cm-0.025*年龄 0.424*肿瘤尺寸变量(其中p代表癌变部位淋巴结含有癌细胞情况为1 的概率，1-p代表癌变部位淋巴结含有癌细胞情况为0的概率)。

R2用于表示模型拟合程度，此值与多元线性回归分析的R2值意义基本一致，此值的取值范围为0～1，一般没有固定标准，值越大意味着相关因素对Y的解释力度越高。SPSSAU提供3个R方值指标，分别是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。

2.影响关系及大小

上表可以看出“肿瘤尺寸”会对“癌变部位淋巴结含有癌细胞情况”产生显著的正向影响关系，以及“年龄”会对“癌变部位淋巴结含有癌细胞情况”产生显著的负向影响关系。但是“扩散等级_2-5 cm” “扩散等级_<= 2 cm”并不会对癌变部位淋巴结含有癌细胞情况产生影响关系。其中“肿瘤尺寸”变量的回归系数大于“年龄”的回归系数，所以说明“肿瘤尺寸”对于“癌变部位淋巴结含有癌细胞情况”影响更大。

五、总结

本篇案例利用二元logit回归立一个预测因变量“癌变部位的的淋巴结是否含有癌细胞”的模型，模型进行前首先对变量进行数据预处理以及差异性分析，模型从模型效果以及模型结果两部分进行说明，最后得到模型公式，并进行预测。

网站首页

返回栏目

非条件logistic回归教程：二元logit回归

猜您喜欢：

相关文章