统计学基础所有内容的一个整理(统计学基础笔记)
统计学基础所有内容的一个整理(统计学基础笔记)多重判定系数 multiple coefficient of determination回归方程中的参数是未知的,需要利用样本数据去估计它们。当用样本统计量去估计回归方程中的未知参数时,就得到了估计的多元回归方程,其一般形式为:多元回归方程 multiple regression equation多元回归方程,描述了因变量y的期望值与自变量x1,x2,…,xk之间的关系。一般形式可表示为:估计的多元回归方程 estimated multiple regression equation
对统计学基本概念的梳理,其中普通字体为贾俊平著《统计学(第六版)》中的重要概念,引用字体的内容为书中没有标注为重要概念的较为重要的补充,批注为我依据所学知识的补充。
第12章 多元线性回归
多元回归模型 multiple regression model
设因变量为y,k个自变量分别为x1,x2,…,xk,描述因变量y如何依赖于自变量x1,x2,…,xk和误差项ε的方程称为多元回归模型。其一般形式可表示为:
式中,β0,β1,β2,…,βk是模型的参数;ε为误差项。
多元回归方程 multiple regression equation
多元回归方程,描述了因变量y的期望值与自变量x1,x2,…,xk之间的关系。一般形式可表示为:
估计的多元回归方程 estimated multiple regression equation
回归方程中的参数是未知的,需要利用样本数据去估计它们。当用样本统计量去估计回归方程中的未知参数时,就得到了估计的多元回归方程,其一般形式为:
多重判定系数 multiple coefficient of determination
多重判定洗漱是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。其定义如下:
调整的多重判定系数 adjusted multiple coefficient of determination
因为随着自变量个数的增加将影响到因变量中被估计的回归方程所解释的变差数量。当增加自变量时,会使预测误差变得较小,从而减少残差平方和SSE。由于回归平方和SSR=SST-SSE,当SSE变小时,SSR就会变大,从而使R^2变大。如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R^2也会变大。因此,为避免增加自变量而高估R^2,统计学家提出用样本量n和自变量的个数k去调整R^2,计算出调整的多重判定系数,记为Ra^2,其计算公式为:
多重共线性 multicollinearity
当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。在实际问题中,所使用的自变量之间存在相关是一件很平常的事,但是在回归分析中存在多重共线性将会产生某些问题:首先,变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;其次,多重共线性可能对参数估计值的正负号产生影响,特别是βi的正负号有可能同预期的正负号相反。
检测多重共线性的方法有多重,其中最简单的一种方法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。如果有一个或多个相关系数是显著的,就表示模型中所使用的自变量之间相关,因而存在多重共线性问题。
具体来说,如果出现下列情况,暗示存在多重共线性:
1.模型中各对自变量之间显著相关。
2.当模型的线性关系检验(F检验)显著时,几乎所有回归系数βi的t检验却不显著。
3.回归系数的正负号与预期的相反。
4.容忍度与方差扩大因子,一般认为方差扩大因子大于10时,存在严重的多重共线性。
容忍度 tolerance
(在多元回归模型中)某个自变量的容忍度等于1减去该自变量为因变量而其他k-1个自变量为预测变量时所得到的线性回归模型的判定系数,即1-Ri^2。容忍度越小,多重共线性越严重。
方差扩大因子 variance inflation factor / VIF
(在多元回归模型中)方差扩大因子等于容忍度的倒数,即VIF=1/(1-Ri^2)。显然,VIF越大, 多重共线性越严重。一般认为VIF大于10时,存在严重的多重共线性。