快捷搜索:  汽车  科技

python指数分布的假设检验(Python六西格玛管理统计学)

python指数分布的假设检验(Python六西格玛管理统计学)一、直方图可视化分布我将尝试使用python编程,对这些正态性检验逐一解释。反之,如果该地区成年人的身高,经过正态性检验,发现不符合正态分布,可能更接近指数分布。那么我们仍然按照正态分布的规律,去推算矮个人群比例,结果会南辕北辙。同样的道理,在生产制造企业,按照六西格玛要求,当我们对一个批次的产品做质量检验的时候,如果需要做统计分析,例如,假设检验,SPC控制(计量型数据),Cpk计算等,就要对整个数据集进行正态性检验。传统的六西格玛企业管理,已经发展出一套完善的正态性检验方法,主要基于统计学原理。可以使用一小部分的样本量,来判断整个数据集是否符合正态分布。这里不再赘述。

前面我们了解了正态分布的几个要素,包括样本量,概率密度函数,和随机性。

接下来我们来看一下,如何判断一个数据集,它是正态分布的可能性有多大。这样的方法,在统计学上称为正态性检验。

把一个数据集,判断为正态分布,对人类的社会活动,或者制造活动是很重要的。

比如,某地区所有的成年人的身高,经过判断,确定是正态分布,那么当地的统计部门,可以方便地计算出,身高过矮的人群比例,将此数据分享给医疗卫生部门,从而制定对应的医疗保健,优生优育等一系列指导措施。

反之,如果该地区成年人的身高,经过正态性检验,发现不符合正态分布,可能更接近指数分布。那么我们仍然按照正态分布的规律,去推算矮个人群比例,结果会南辕北辙。

同样的道理,在生产制造企业,按照六西格玛要求,当我们对一个批次的产品做质量检验的时候,如果需要做统计分析,例如,假设检验,SPC控制(计量型数据),Cpk计算等,就要对整个数据集进行正态性检验。

传统的六西格玛企业管理,已经发展出一套完善的正态性检验方法,主要基于统计学原理。可以使用一小部分的样本量,来判断整个数据集是否符合正态分布。这里不再赘述。

我将尝试使用python编程,对这些正态性检验逐一解释。

一、直方图可视化分布

这个办法我们在前面的文章中已经看过了。如下图:

python指数分布的假设检验(Python六西格玛管理统计学)(1)

图1

上图中,蓝色的直方图形,表示了实际的数据分布,红色的曲线,则表示某种正态分布的概率密度函数。

由上图可知,蓝色直方图的边界,和红色曲线是高度吻合的。所以我们可以很有信心判断,这个数据集就是正态分布,这个正态分布的概率密度函数,就是红色曲线的表示。

二、偏度峰度分析法

这个方法要求计算出数据集的几个统计量,分别是数学期望(就是平均值),标准差(请见之前文章),还有偏度和峰度两个统计量。

假设我们现在生产制造一种电机,它在某个工况下,转速应该是零,正转或者负转的速度太大,都会被认为质量不合格。

这个型号的电机,我们每天生产1000台,连续生产了100天(去除节假日)。我们需要知道,这批产品的转速性能,是一个怎样的分布状况。

如果每天,我们只抽取5个电机作为检验样品,我们可以得到 5 X 100 = 500 个样品,这样的一个数据集。

我们假定这个生产过程是稳定的。

我们用python来模拟一下这个生产,如下图:

python指数分布的假设检验(Python六西格玛管理统计学)(2)

图2

以及下图:

python指数分布的假设检验(Python六西格玛管理统计学)(3)

图3

其中,图2表示的是,生产一开始的前20天的情况,每个子图分别表示当天的情况。第21天以后的子图,这里没有画出来。

图3表示的是,500个样品这样的整个数据集。

图3的数据集,我们可以计算出,它数学期望是-0.00106,标准差是0.101,偏度值是-0.1018,峰度值是-0.160。

如果从数值上看,偏度和峰度都接近零,可以认为不是正态分布的可能性很小。

我们将在下一篇,讨论更多的正态性检验方法。

猜您喜欢: