最简单数据分析方法,每天一点数据分析
最简单数据分析方法,每天一点数据分析结合这个例子来复习一下之前的统计学知识:描述统计分析工具Excel分析工具描述统计我们使用分析工具库里的“描述统计”来分析用户消费金额数据,单击【描述统计】,在弹出的对话框中,对各类参数进行相关设置,即可得出相关结果。其中,输入区域输入的是需要统计的行列数,输出区域定义的是输出的位置。
数据统计分析一般采用专业的统计软件来完成,如SPSS、SAS等等,因为使用难度过大,并且需要具备一定的统计知识和编程知识,所以这样的统计软件不容易上手。除此之外,我们可以用Excel自带的简单易用的分析工具来实现统计分析任务。
Excel提供了一个数据分析加载工具——“分析工具库”,它操作简单,在进行复杂数据统计分析时可节省许多复杂计算步骤,只需要为每一个分析工具提供必要的数据和参数,该工具就会使用适当的统计函数,在输出表格中显示相应的结果。其中有些工具在生成输出表格是还能同时生成表格。
Excel分析工具库可以完成的数据统计分析包括:描述统计、直方图、相关系数、移动平均、指数平滑、回归等19种统计分析方法。Excel默认情况下是不加载分析工具库的,如需安装,只需要在【文件】-【加载项】中选中分析工具加载进来即可,操作方法和加载PowerPivot工具一样。
回顾之前学过的统计学知识,结合Excel分析工具库,我们可以轻松地避开许多复杂的统计运算。
Excel分析工具
描述统计
我们使用分析工具库里的“描述统计”来分析用户消费金额数据,单击【描述统计】,在弹出的对话框中,对各类参数进行相关设置,即可得出相关结果。其中,输入区域输入的是需要统计的行列数,输出区域定义的是输出的位置。
描述统计分析工具
结合这个例子来复习一下之前的统计学知识:
-
表现数据集中趋势的指标有:平均值、中位数、众数;
-
描述数据离散程度的指标有:方差与标准差;
-
呈现数据分布形态的指标有:峰度系数与偏度系数。
峰度系数是描述对称分布曲线峰顶尖峭程度的指标,是相对于正态分布而言的。峰度系数>0 两侧极端数据较少,比正态分布更高更瘦,呈尖峭峰分布;峰度系数<0 表述两侧极端数据较多,比正态分布更矮更胖,呈平阔峰分布。
峰度系数
偏度系数是以正态分布为标准来描述数据对称性的指标。偏度系数=0,就是分布对称;如果频数分布的高峰左偏移(偏度系数<0) 长尾向右侧延伸称为正偏态分布;如果频数分布的高峰向右偏移(偏度系数>0) 长尾向左延伸则称为负偏态分布。偏度系数大于1或小于-1,被称为高度偏态分布;偏度系数在0.5~1或-0.5~-1范围内,被称为中等偏态分布。偏度系数越接近0,偏斜程度就越低。
偏度系数
直方图
直方图是用于展示分组数据分布的一种图形,用矩形的宽度和高度来表示频数分布,在直角坐标系中,用横轴表述数据分组,纵轴表示频数或频率,各组数据与相应的频数就形成了一个矩形,即直方图。通过直方图可以直观地看出数据分布的形状、数据分布的中心位置及数据分散的程度,由此判断数据是否符合正态分布。
我们仍以“用户消费数据”为例,来了解用户消费金额的分布情况。
1、定义组距,即以一组升序排列的临界点数据集合,Excel将统计在相邻临界点之间的数据频数,也就是个数。也可以不设组距,Excel将自动以数据的最大值及最小值之间的范围进行等距分组;
组距
2、选择【数据分析】中的直方图,在弹出的对话框中,做出相关设置,即可生成对应设置的直方图。
直方图分析工具
直方图生成图表
这里需要对柏拉图、累计百分率做些说明。
柏拉图是根据各组频数大小进行降序排列并绘制的图表,柏拉图一般采用分类数据进行统计;直方图则是默认按照各组组距从小到大的排序方式进行绘制,顺序是固定的,不能对其进行修改。
在设置中如果勾选累计百分率,则可以在输出表中添加一列累计百分比数值,并同时在直方图表中添加绘制累计百分比的折线。