python指数分布的假设检验(Python六西格玛管理统计学)
python指数分布的假设检验(Python六西格玛管理统计学)一、直方图可视化分布我将尝试使用python编程,对这些正态性检验逐一解释。反之,如果该地区成年人的身高,经过正态性检验,发现不符合正态分布,可能更接近指数分布。那么我们仍然按照正态分布的规律,去推算矮个人群比例,结果会南辕北辙。同样的道理,在生产制造企业,按照六西格玛要求,当我们对一个批次的产品做质量检验的时候,如果需要做统计分析,例如,假设检验,SPC控制(计量型数据),Cpk计算等,就要对整个数据集进行正态性检验。传统的六西格玛企业管理,已经发展出一套完善的正态性检验方法,主要基于统计学原理。可以使用一小部分的样本量,来判断整个数据集是否符合正态分布。这里不再赘述。
前面我们了解了正态分布的几个要素,包括样本量,概率密度函数,和随机性。
接下来我们来看一下,如何判断一个数据集,它是正态分布的可能性有多大。这样的方法,在统计学上称为正态性检验。
把一个数据集,判断为正态分布,对人类的社会活动,或者制造活动是很重要的。
比如,某地区所有的成年人的身高,经过判断,确定是正态分布,那么当地的统计部门,可以方便地计算出,身高过矮的人群比例,将此数据分享给医疗卫生部门,从而制定对应的医疗保健,优生优育等一系列指导措施。
反之,如果该地区成年人的身高,经过正态性检验,发现不符合正态分布,可能更接近指数分布。那么我们仍然按照正态分布的规律,去推算矮个人群比例,结果会南辕北辙。
同样的道理,在生产制造企业,按照六西格玛要求,当我们对一个批次的产品做质量检验的时候,如果需要做统计分析,例如,假设检验,SPC控制(计量型数据),Cpk计算等,就要对整个数据集进行正态性检验。
传统的六西格玛企业管理,已经发展出一套完善的正态性检验方法,主要基于统计学原理。可以使用一小部分的样本量,来判断整个数据集是否符合正态分布。这里不再赘述。
我将尝试使用python编程,对这些正态性检验逐一解释。
一、直方图可视化分布
这个办法我们在前面的文章中已经看过了。如下图:
图1
上图中,蓝色的直方图形,表示了实际的数据分布,红色的曲线,则表示某种正态分布的概率密度函数。
由上图可知,蓝色直方图的边界,和红色曲线是高度吻合的。所以我们可以很有信心判断,这个数据集就是正态分布,这个正态分布的概率密度函数,就是红色曲线的表示。
二、偏度峰度分析法
这个方法要求计算出数据集的几个统计量,分别是数学期望(就是平均值),标准差(请见之前文章),还有偏度和峰度两个统计量。
假设我们现在生产制造一种电机,它在某个工况下,转速应该是零,正转或者负转的速度太大,都会被认为质量不合格。
这个型号的电机,我们每天生产1000台,连续生产了100天(去除节假日)。我们需要知道,这批产品的转速性能,是一个怎样的分布状况。
如果每天,我们只抽取5个电机作为检验样品,我们可以得到 5 X 100 = 500 个样品,这样的一个数据集。
我们假定这个生产过程是稳定的。
我们用python来模拟一下这个生产,如下图:
图2
以及下图:
图3
其中,图2表示的是,生产一开始的前20天的情况,每个子图分别表示当天的情况。第21天以后的子图,这里没有画出来。
图3表示的是,500个样品这样的整个数据集。
图3的数据集,我们可以计算出,它数学期望是-0.00106,标准差是0.101,偏度值是-0.1018,峰度值是-0.160。
如果从数值上看,偏度和峰度都接近零,可以认为不是正态分布的可能性很小。
我们将在下一篇,讨论更多的正态性检验方法。