r语言怎么看线性回归（R语言实战-02-回归诊断-多重共线性与异常值）

小君 2022-12-19 05:36:30 564

r语言怎么看线性回归（R语言实战-02-回归诊断-多重共线性与异常值）它会导致模型参数的置信区间过大，使单个系数解释起来很困难。回归系数测量的是当其他预测变量不变时，某个预测变量对响应变量的影响。那么此处就相当于假定年龄不变，然后测量握力与年龄的关系，这种问题就称作多重共线性（multicollinearity）。但是当你观察DOB和年龄的回归系数时，却发现它们都不显著（也就是说无法证明它们与握力相关）。到底发生了什么呢？原因是DOB与年龄在四舍五入后相关性极大。

R语言实战-02-回归诊断-多重共线性与异常值

☸ 多重共线性
☸ 异常观测值

✡ 离群点
✡ 高杠杆值点
✡ 强影响点

☸ 改进措施

本系列是对《R语言实战》感兴趣部分的阅读笔记，学习的目的在于理解函数，理解图像含义

☸ 多重共线性

让我们来看一个比较重要的问题，它与统计假设没有直接关联，但是对于解释多元回归的结果非常重要。

假设你正在进行一项握力研究，自变量包括DOB（Date Of Birth，出生日期）和年龄。

你用握力对DOB和年龄进行回归，F检验显著，p<0.001。

但是当你观察DOB和年龄的回归系数时，却发现它们都不显著（也就是说无法证明它们与握力相关）。

到底发生了什么呢？

原因是DOB与年龄在四舍五入后相关性极大。

回归系数测量的是当其他预测变量不变时，某个预测变量对响应变量的影响。那么此处就相当于假定年龄不变，然后测量握力与年龄的关系，这种问题就称作多重共线性（multicollinearity）。

它会导致模型参数的置信区间过大，使单个系数解释起来很困难。

多重共线性可用统计量VIF（Variance Inflation Factor，方差膨胀因子）进行检测。VIF的平方根表示变量回归参数的置信区间能膨胀为与模型无关的预测变量的程度（因此而得名）。car 包中的vif()函数提供VIF值。一般原则下， vifvif的开根号 >2就表明存在多重共线性问题。

#检测多重共线性 library(car) vif(fit) sqrt(vif(fit)) > 2 Population 1.24528200205236 Illiteracy 2.16584830171514 Income 1.34582173068518 Frost 2.08254682072994 Population FALSE Illiteracy FALSE Income FALSE Frost FALSE☸ 异常观测值✡ 离群点

离群点是指那些模型预测效果不佳的观测点。它们通常有很大的、或正或负的残差。

正的残差说明模型低估了响应值，

负的残差则说明高估了响应值。

其中一种鉴别离群点的方法是：Q-Q图，落在置信区间大歪的点即可被认为是离群点。

另外一种粗糙的判断准则：标准化残差值大于2或者小于-2的点可能是离群点，需要特别关注。

car包提供一种离群点的统计检验方法。

outlierTest()函数可以求得最大标准化残差绝对值Bonferroni调整后的p值

library(car) outlierTest(fit) # Nevada被判定为离群点（p=0.048） #该函数只是根据单个最大（或正或负）残差值的显著性来判断是否有离群点。 #若不显著，则说明数据集中没有离群点， #若显著，则必须删除该离群点，然后再检验是否还有其他离群点存在。 out: rstudent unadjusted p-value Bonferroni p Nevada 3.542929 0.00095088 0.047544

此处，你可以看到Nevada被判定为离群点（p=0.048）。注意，该函数只是根据单个最大（或正或负）残差值的显著性来判断是否有离群点。若不显著，则说明数据集中没有离群点；若显著，则你必须删除该离群点，然后再检验是否还有其他离群点存在。

✡ 高杠杆值点

即与其他预测变量有关的离群点。

换句话说，它们是有许多异常的预测变量值组合起来的，与响应变量值没有关系。

高杠杆值的观测点可通过帽子统计量（hat statistic）判断。

对于一个给定的数据集，帽子均值为p/n，其中p是模型估计的参数数目（包含截距项），n是样本量。

一般来说，若观测点的帽子值大于帽子均值的2或3倍，就可以认定为高杠杆值点。

hat.plot <- function(fit){ p <- length(coefficients(fit)) n <- length(fitted(fit)) plot(hatvalues(fit) main = "Index Plot of Hat Values") abline(h=c(2 3)*p/n col="red" lty=2) identify(1:n hatvalues(fit) names(hatvalues(fit))) } hat.plot(fit)

result:

r语言怎么看线性回归（R语言实战-02-回归诊断-多重共线性与异常值）(1)