配对样本t检验怎么看显著性?显著性检验
配对样本t检验怎么看显著性?显著性检验1. 样本均值单侧检验9.1.1 节中讨论过有方向对立假设和无方向对立假设,对立假设分为这两种情况分别对应着单侧检验和双侧检验。显著性检验证据要达到某一个显著性水平才可以推翻零假设。在通常经验中,统计学家喜欢用 5%作为显著性水平的门槛,这意味着如果零假设的成立概率不到 5%,就可以推翻零假设,反过来说,如果对立假设成立的概率超过 95%,也可以推翻零假设。95% 这个数字看起来是不是很熟悉,这是很重要的一个标志性节点,是 68-95-99.7 法则中的数值(请参阅 7.4.2 节)。其实际意义是,在正态分布中,从均值向两侧各移动两个标准差的距离,可以覆盖全部数据的 95%。这是做显著性检验的一个重要指标。
讨论显著性之前,先介绍一个法学史上著名的案件:辛普森杀妻案。
辛普森是美国著名的橄榄球运动员,其妻子在 1994 年夏天的某个夜晚被杀害,警察在调查案件的过程中将辛普森定为唯一的嫌疑人。在美国是适用无罪推定的,所以当这个案件开庭审理时,辛普森是被假设无罪的(零假设),检方(提起诉讼的检察院)需要提供证据证明其有罪(对立假设)。
在诸多证据中,一个很有力的间接证据是警察在凶案现场找到了辛普森的血迹,单从这一点看似乎已经能证明辛普森至少在案发现场出现过,甚至可以间接证明他就是凶手,可谓是铁证如山。到这里,似乎已经可以给辛普森定罪了,因为有了很可靠的证据证明零假设是不成立的。不过,检方有个强大的对手,由六名顶尖律师组成,被称为“梦之队”的辩方律师团。辩方律师考察了警察调查凶案中的每一个过程,发现采集血样的流程不符合规范。按照正常程序,在采集血迹时应当先用棉花沾起血迹样本,待自然风干后才能放入证据袋中,可是警方检验人员在血迹尚未风干时就已将样本放入证据袋。在刑事诉讼的证据认定环节,血迹和 DNA 检验结果是毋庸置疑的铁证,但是,如果血迹受到污染、不当处理、草率采集或有人故意栽赃,那么它的可信度会大幅降低。由于警方的操作失误,检方最重要的“铁证”被认定无效。
辛普森案中的血迹证据是能推翻零假设的有力证据。但是,这个证据要具备一定的可靠度才能有效。诉讼中的证据的可靠性,就是假设检验中证明零假设无效证据的显著性。在该案中,检方收集了很多其他证据,包括毛发、带血迹手套等,都因辩方质疑其可靠性而无效。
显著性检验
证据要达到某一个显著性水平才可以推翻零假设。在通常经验中,统计学家喜欢用 5%作为显著性水平的门槛,这意味着如果零假设的成立概率不到 5%,就可以推翻零假设,反过来说,如果对立假设成立的概率超过 95%,也可以推翻零假设。
95% 这个数字看起来是不是很熟悉,这是很重要的一个标志性节点,是 68-95-99.7 法则中的数值(请参阅 7.4.2 节)。其实际意义是,在正态分布中,从均值向两侧各移动两个标准差的距离,可以覆盖全部数据的 95%。这是做显著性检验的一个重要指标。
9.1.1 节中讨论过有方向对立假设和无方向对立假设,对立假设分为这两种情况分别对应着单侧检验和双侧检验。
1. 样本均值单侧检验
8.2 节中介绍的饮料公司在完成偏好低糖口味人群占比的调研后,便开始生产低糖饮料,第一批产品已经生产完毕,但是新品要通过质检部门的检验,达到国家标准才可以上市流通。
低糖饮料的国家标准是每 100 克饮料中含糖量小于 5 克。质检人员从该批产品中抽取100 瓶饮料,每瓶饮料中取出 100 克组成一个样本。经过计算得知该样本的含糖量均值是5.25 克,标准差是 1 克。
完整的假设检验过程如下
。第一步,提出假设。
零假设:饮料新品的含糖量均值小于 5 克。
对立假设:饮料新品的含糖量超过 5 克。
第二步,抽样分布。
如果零假设为真,样本均值抽样分布应该是正态分布,且均值为 5,标准误差为
0.1(标准误差的计算方法请参阅 8.3.1 节)。这里需要对总体标准差说明,在现实世界中,很多总体的标准差是无法得知的,通常是用样本的标准差近似代替,所以在本例中计算标准误差时,用样本标准差 1 代理了总体标准差。
第三步,检验。
从均值 5 向左右两侧各移动 2 个标准差的区间是 4.8 ~ 5.2,通过 68-95-99.7 法则可知,这个区间刚好是 95%,如图 9-2 所示。而 100 瓶样本的含糖量均值 5.25 位于 5.2 的右边,即图中阴影区域部分。注意,图 9-2 的阴影区域只有右侧部分,而左侧没有,因为要检验的是高于 5 克这个标准,是有方向的,对于低于 5 克的值是不需要关心的,所以只验证右侧即可,这就是单侧检验。超过两个标准差以外的比例是 5%,而单边检测要更少,只有 2.5%,也就是说 5.25 是落在了 2.5% 的水平以内。
图 9-2 低糖饮料样本均值抽样分布
第四步,结论。
按照通常经验设置的显著性水平是 5%,样本均值 5.25 恰好没有进入 95% 的区间,可以就此认定零假设被推翻,这批新品没有达到国家低糖饮料的标准要求,含糖量过高,不能上市。
2. z 检验
用样本均值抽样分布检验显著性水平更方便的方法是用 z 值代替标准差(z 值的概念请参阅 7.4.4 节)。例如,图 9-2所示,标准误差是 0.1,5.25对比均值 5 是向右移动了 2.5个标准差,超过95%的范围。用标准差的好处在于无论多么大或多么小的数据,都可以更直观地进行比较。
想要用 z 值代替标准差,首先要把均值抽样分布标准化成标准正态分布,标准化的具体方法如下。如图 9-3所示,右侧比较矮的分布曲线是均值为 9,标准差为 1.2 的正态分布,将曲线的整体向左移动 9 个单位,均值将位于横轴的 0 点,再将标准差缩小 1.2 倍,曲线就会变瘦,变成标准差为 1 的形状,图 9-3 左侧的曲线就是变化后的标准正态分布。
图 9-3 正态分布标准化过程
变成标准正态分布以后,不能用原来的检验标准,要将所有检验值转化成 z 值(转化 z值的方法请参阅 7.4.4 节)。以低糖饮料的检验值为例,如图 9-4 所示。
图 9-4 将检验值标准化成 z 值
这里要提出一个重要概念:统计量,图 9-4 中的第 3 行是检验统计量的例子。检验统计量是用来度量已测量的样本数据和零假设下的期望值之间的差距,并且这个距离要用 z 值来表示。在本例中,已测量的样本数据是 5.25,零假设期望的数据是 5,二者间的距离是
检验统计量被称为 z,按照以上例子可知,z 统计量的表达式如下。
所有应用这个比值的检验就称为 z 检验。
对于显著性水平为 5% 的假设,只要判断 z 统计量是否落在 -2 和 2 之间,在低糖饮料单侧检验中,z 统计量 2.5 是大于 2 的,即低于 5% 的显著水平,如图 9-5 所示。通过 z 统计量的正负也可以立刻了解到是在分布的右侧还是左侧,在本例中 z 统计量为 2.5,是正值,分布在右侧。
图 9-5 低糖饮料样本均值抽样分布标准化
3. P 值
在低糖饮料单侧检验中,z 检验量 2.5,如图 9-6 所示中的实心黑点所示,单侧检验的 P值就是该正态分布曲线 2.5 右侧的面积,即图中阴影面积值。
图 9-6 Z 统计量是 2.5 时的单侧检验的 P 值
如果再抽取一个样本,这次 z 统计量是 3,说明这是推翻零假设更为有力的证据,如果z 统计量是 2.1,也能推翻原假设,但是证据的力度比起 2.5 和 3 就比较弱,换句话说,2.5右边的面积代表那些会给出比观察值更极端 z 值的样本,同时也是推翻零假设更有利的证据。
p 值(P-value)是在零假设为真时,得到一个与当前样本测量值相同或更极端结果出现的机会。p 值越小,推翻原假设的证据越强。
从以上的计算过程可以看出,p 值的大小和标准误差有很大关系,而标准误差又和样本量有很大关系,如果样本量很大,标准误差就会很小,p 值也会很小。显著性检验的 p 值和样本量是密切相关的,所以在报告 p 值时要一起报告样本量,否则无法衡量 p 值的测量力度。
通过查 z 值百分数分布表,可以得到 z 值为 -0.25 左侧的占比为 0.62%,所以 p 值为0.62%。取 z 值为 -0.25 是因为左右面积是对称的,如果用 z 值为 2.5 查表,得到的 2.5 左侧的面积占比,是 99.38%,p=1-99.38%=0.62%,这样多计算了一步,是不必要的。
4. 样本均值双侧检验
假设某数据存储服务商出现了重大事故,又导致了 3 批数据泄露,A 银行正好也使用此服务,A 银行希望确认自己的数据是否已经被泄露,于是立即进行检验。A 银行拿到已经泄露的3 批数据以后,分别计算了每组数据的均值和标准差,同时也计算出 A 银行总体客户数据的均值和标准差,结果如图 9-7 所示。
图 9-7 泄露数据和 A 银行的均值及标准差
恰好这 3 批数据都是 10000 个客户,可以建立 3 个零假设,在标准化的正态分布中一起检验。
3 个零假设分别如下。
Ⅰ组数据是 A 银行的数据。
Ⅱ组数据是 A 银行的数据。
Ⅲ组数据是 A 银行的数据。
如果零假设为真,3 组数据都服从 A 银行的均值抽样分布,均值是 7000,标准误差是
用z 值在正态分布曲线中找到 p 值的面积,具体方法如图 9-9 所示。
图 9-9 三组数据的 p 值
三个图的共同特点是,对称的一对 z 值两侧的阴影面积都算作 p 值,因为不知道泄露的数据整体大于还是小于 A 银行的数据,所以要两边都做检验,这就是双侧检验。
在 z 值百分位表中查得 -3.8、-1.9、-2.6 的百分位数分别是 0.01%、2.87%、0.47%,需要注意的是,双侧检验计算 p 值是单侧 p 值的双倍,3 组 p 值计算如下。
p Ⅰ =0.01%×2=0.02%
p Ⅱ =2.87%×2=5.74%
p Ⅲ =0.47%×2=0.94%
假设显著水平为 5%,Ⅰ组和Ⅲ组的 p 值都很小,足够推翻零假设,说明Ⅰ组和Ⅲ组和A 银行无关。Ⅱ组数据的 p 值是 5.74%,无法推翻零假设,说明零假设为真,泄露的Ⅱ组数据是 A 银行的。
两个群体的z检验
1. 两个群体的平均差检验
某中学的理科班连续三年高考成绩下滑,2017 年的平均分是 449.7 分,2019 年的平均分是 439.6 分,平均分降低了 10.1 分,这是真的在下降,还是偶然现象呢,可以用 z 检验来对比两个群体的差异。独立样本是指从总体中抽取一个样本,用样本检验总体,样本是总体的一个子集,换句话说,样本的每一个元素都包含在总体内。两个群体的比较是指两个总体比较,二者之间没有包含关系,完全是互不相干的,如本例中想要比较 2017 年和 2019年的学生高考成绩,2017 年的考生和 2019 年的考生是完全不同的群体,要测量的是二者之间的实际差距与理想中的差距有多少,同样也是通过样本来推断的。
分别对 2017 年和 2019 年的考生进行随机抽样,各抽取 300 人,样本 2017 年的标准差是 42.1,样本 2019 年的标准差是 49.5。
第一步,建立假设。零假设:2019 年和 2017 年相比,成绩没有变化。对立假设:2019 年相比 2017 年,成绩降低。
第二步,设置零假设风险水平,无特殊情况下,沿用常规的 5%。
第三步,计算检验统计量。
观察计算 z 统计量所需要的数据。
(1)观察值是 449.7-439.6=10.1,这个差值是现在观察到的结果。
(2)零假设下的期望值是这两年的平均分没有变化,那么二者差值是 0。
(3)相比独立样本标准误差,群体是比较两个群体的差的标准误差。
用 SE 表示标准误差,样本 2017 年的标准误差是 SE1,样本 2019 年的标准误差是SE2。测算二者距离通常用两种方法,一是直接相减,但是由于有正负号,容易彼此抵消为0。第二种方法是求二者平方和再开方,可以排除掉正负号的影响,7.2.2 节中计算方差就是用的这种方法。在本例中:
将以上 3 个数值代入 z 统计量的计算公式如下所示。
第四步,对比 p 值。
查询 z 值百分数分布表(请参阅 7.4.5 节),可以知道z=2.7 右侧面积是 p=1-0.9965=0.0035=0.35%,p 值低于显著水平 5%,可以由此拒绝原假设。连续三年的成绩下降是真实的。
2. 用 Excel 做 z 检验
北京某大型居住社区 70% 的房屋都是出租的,通常情况下,租金单价会因户型面积不同而不同,现在拟分析租金和户型面积的关系,以 50 平方米为界限,在 50 平方米以下和 50 平方米以上的户型分别随机抽取 30 套房屋,验证租金单价主要受到户型面积影响,而非装修、朝向等其他因素导致的偶然差异。
抽样的结果如图 9-10 所示。
图 9-10 北京某大型居住区按50 平方米为界限抽样结果
通过已有的数据可知,50 平方米以下户型的租金单价方差为 63,50 平方米以上户型的租金单价方差为 89,验证两种户型租金单价差异,步骤如下。
步 骤 1依次单击【数据】选项卡→【数据分析】按钮,打开【数据分析】对话框。
步 骤 2在【数据分析】对话框的【分析工具】列表框中选择【z 检验:双样本平均差检验】选项,单击【确定】按钮,打开【z 检验:双样本平均差检验】对话框。
步 骤 3在【z 检验:双样本平均差检验】对话框中设置相关参数。(1)单击【变量 1 的区域】编辑框右侧的折叠按钮,选择包含 50 平方米以下户型的A3:A32 单元格区域,单击【变量 2 的区域】编辑框右侧的折叠按钮,选择包含 50 平方米以上户型的 B3:B32 单元格区域。
(2)【假设平均差】是零假设的数值,在本例中,零假设是 50 平方米以下和 50 平方米以上的户型租金单价没有差异,所以输入 0。
(3)【变量 1 的方差 ( 已知 )】是 50 平方米以下户型的总体的方差,输入 62,同理,【变量 2 的方差 ( 已知 )】文本框中输入 89。
(4)【α】是设置的显著性水平,无特殊情况都按 5% 设置,在右侧的文本框中输入 0.05。
(5)在【输出选项】选项区域下选中【输出区域】单选按钮,单击右侧的折叠按钮,选择 D1 单元格为保存结果的起始位置。最后单击【确定】按钮,如图 9-11 所示。
图 9-11 双样本平均差 z- 检验
在 D1 单元格开始的区域保存的 z- 检验结果,如图 9-12 所示。
图 9-12 z- 检验结果
由以上结果中可以得知,z 值约为 2.8,查询 z 值百分数分布表(请参阅 7.4.5 节),可以知道 z=2.8 右侧面积是 P=1-0.9974=0.0026=0.26%,P 值低于显著水平 5%,可以由此拒绝零假设。结论是 50 平方米以下和 50 平方米以上的户型面积的房屋,其租金单价有显著差异。
两类错误
零假设在设定时是假定两个群体没有差别,真实情况是可能有差异,也可能无差异,显著性水平 5% 的标准是人为划定的,就像通常都是 60 分及格,但是 59 分和 60 分能差多少呢?能证明得 59 分的同学比得 60 分的同学差吗?一分之差无法判断同学间的差异,但是成绩排名中总要划一条及格线,用以区分类别。5% 就是统计学家通过经验划的一条线,这是个经验值而不是数学定理,是经验就有错误的可能性。检验中的各种可能结果如表 9-2 所示。
表 9-2 检验中的各种可能结果
零假设是否为真 |
经过假设检验后的决策 | |
接受零假设 |
推翻零假设 | |
零假设是真实的 |
决策正确 |
第Ⅰ类错误(弃真错误或 α 错误) |
零假设是虚假的 |
第Ⅱ类错误(取伪错误或 β 错误) |
决策正确 |
第Ⅰ类错误也称为弃真错误,出错的概率用 α 表示,所以也称为 α 错误。零假设是真实的,经过检验后将其推翻。
某银行发生了一起抢劫案,被抢走大量现金,银行为了防止损失,在每一捆现金中都放了一张可追踪的钞票,警察通过这个线索快速定位了嫌疑人的位置,赶到时发现是一个居民住宅,里面住着一个中年男人,在他们家地窖找到了赃款。法官以藏匿赃款为证据,判定了嫌疑人有罪。实际上这是中年男人的邻居偷偷趁他不在时放进地窖的,打算等人们渐渐淡忘以后再去取出来。可是证据足够充分,给无辜的人判罪,同时放跑了真正的罪犯。
第Ⅱ类错误也称为取伪错误,出错的概率用 β 表示,所以也称为 β 错误。零假设是虚假的,经过检验后接受了该假设。美国大多数民众至今认为辛普森是杀害他妻子的真正凶手,只是因为证据不够可靠,所以才让凶手逃脱了。在他们心中,辛普森案件一直都是第Ⅱ类错误。
这两类错误越少越好。第Ⅰ类错误在做显著性检验的时候就做了控制,P 值是为了做检验而承担的风险,如果觉得需要严格控制,就把 5% 的水平降低到 1%,很多科学家为了得到更精确的结果会选用更严格的显著性水平。5% 的经验是在没有计算机的年代定的,当时的计算能力没有那么强,无法得到更高的精度,在计算机的帮助下,现在很多情况下,显著性水平都精确到了 1%。
第Ⅱ类错误没有控制,但是与样本规模相关性很高。样本量越大时,第Ⅱ类错误就越低,也就是样本越接近总体,接受假的零假设的可能性就越低。