python多元正态分析(Python六西格玛管理统计学)
python多元正态分析(Python六西格玛管理统计学)Python的代码和输出结果展示如下:它是一个定量方法,经常被用来做数据的正态性检验。接下来,我们继续讨论其他的正态性检验方法。三、假设检验:夏皮罗法 Shapiro Test夏皮罗法,全称Shapiro-Wilk Test(夏皮罗威尔克检验),是一个比较著名的统计学假设检验。
正态分布
在前面的几篇文章,我们了解了有关正态分布的如下内容:
- 影响正态分布的三大要素,分别是:样本量,概率密度函数pdf,和随机性。
- 在六西格玛管理的体系中,正态分布对数据分析,有着重要的影响。
- 在制造管理领域,可以用正态性检验,来判断一个数据集是不是正态分布。
我们使用python编程,生成模拟数据,以及可视化,对以上内容进行了验证和展示。
同时,我们描述了两种正态性检验方法:直方图可视化,和偏度峰度数值评估。
接下来,我们继续讨论其他的正态性检验方法。
三、假设检验:夏皮罗法 Shapiro Test
夏皮罗法,全称Shapiro-Wilk Test(夏皮罗威尔克检验),是一个比较著名的统计学假设检验。
它是一个定量方法,经常被用来做数据的正态性检验。
Python的代码和输出结果展示如下:
代码和输出1
输出的结果,有两个评价指标,如下:
- 指标1,statistic为0.9976,接近1,说明数据集与正态分布曲线拟合得很好。
- 指标2,pvalue是0.7184,远大于0.05,说明不是正态分布的可能性非常小。
Python使用的夏皮罗法,样本量不应过大,当样本数量超过5000的时候,夏皮罗法得到的pvalue可能会不准确。
四、假设检验:K-S检验 Kolmogorov-Smirnov Test
另外一个比较合适的正态性检验,就是Kolmogorov-Smirnov Test,也就是K-S检验。直接上代码:
代码和输出2
从pvalue的值0.8519可知,远大于0.05,认为数据不是正态分布的可能性非常小。
五、假设检验:Anderson-Darling(AD)检验
这同样是一个经常使用的正态性检验,工业数据分析软件minitab,它的正态性检验默认设置,就是这个检验。
这里的python代码如下:
代码和输出3
判断准则是,statistic的值应当小于critical_values列表的5个值。
本例中,输出的评价值为0.3108,小于0.571及其他数值,所以正态分布的可能性非常大。
六、Q-Q图可视化
另外一种正态性检验经常使用的可视化方法,就是Q-Q图。
本例的Q-Q图如下:
图1
由上图可知,该数据集,它的所有的点,除了两端个别的点之外,都很好地拟合在直线上。
如果一个Q-Q图,它的拟合直线的效果越好,说明数据越可能是正态分布。