变量之间的相关性分析spss(SPSS销量和用户数双变量相关性分析)
变量之间的相关性分析spss(SPSS销量和用户数双变量相关性分析)8.分析结果显示X_UserCount和Y_GlobalSales的相关系数0.265,线性相关程度不高7.分析-相关-双变量相关性,选择皮尔逊相关系数和双尾显著性检验,点击确定4.重新进入图形-图表构建器-确认,选中散点图-包含拟合线的简单散点图拖拽到图形样板区,点击确定5.直接获得散点图结果,R平方0.070,线性关系非常不明显6.将X轴取对数,Y轴取线性,此时R2有0.106,有一点提升,但是相关性还是比较低,以上步骤只是通过散点图进行预估判断
变量相关分析是建模基础,主要目的是挑选出合适的特征变量并建立合适的目标模型。以手头现有的美国视频游戏销售数据为例,简要讲述下SPSS双变量相关性分析过程。
1.获取数据,文件-打开-数据,稍等几秒钟等数据完全加载进来
2.图形-图表构建器-定义变量属性,这一步要明确下X变量和Y变量分别是什么
3.将左侧变量中Global_Sales和User_Count通过中间箭头拖拽到右侧的要扫描的变量中,单击继续,一直点继续到最后,退出来
4.重新进入图形-图表构建器-确认,选中散点图-包含拟合线的简单散点图拖拽到图形样板区,点击确定
5.直接获得散点图结果,R平方0.070,线性关系非常不明显
6.将X轴取对数,Y轴取线性,此时R2有0.106,有一点提升,但是相关性还是比较低,以上步骤只是通过散点图进行预估判断
7.分析-相关-双变量相关性,选择皮尔逊相关系数和双尾显著性检验,点击确定
8.分析结果显示X_UserCount和Y_GlobalSales的相关系数0.265,线性相关程度不高
双变量相关性较低时如果直接使用线性回归模型效果肯定不好,做不了预测。一般地,相关性系数绝对值为0时表明不相关、0-0.3之间基本不相关、0.3-0.5之间低相关、0.5-0.8之间中度相关、0.8-1.0之间强相关,双变量相关系数至少达到0.80以上才能考虑下一步回归建模。从业务角度,用户数对销量有些影响,但是不是主要影响因素,还有其它影响销量的因素,要想建立回归模型,需要进行特征工程挑选出比用户数更好的自变量。
建模时数据质量和特征工程质量非常影响模型效果,业务原数据一般都是需要反复清洗反复预处理才能获取比较好的特征变量,数据分析里60%以上的工作都是在数据清洗这句话是非常真实的、也是非常普遍的现象。错误的数据、清洗不到位的数据会导致建模失败或者模型输出错误的结果,影响决策判断,数据预处理工作比较枯燥、它非常考验一个人的细心、耐心、逻辑感,磨刀不误砍柴工用在这里特别合适。