快捷搜索:  汽车  科技

统计学漫谈概率(概率和统计的陷阱)

统计学漫谈概率(概率和统计的陷阱)上前线那就又有两种可能:上前线或者不上前线,不上前线有啥可怕的?因为应征入伍后你无非有两种可能:有战争或者没有战争,没有战争有啥可怕的?有战争那就又有两种可能:

上世纪中叶,为了应付两次世界大战,美国军队向社会征兵。

在这个过程中,发生了两件很有意思的事。

首先是美国陆军的征兵广告:

统计学漫谈概率(概率和统计的陷阱)(1)

“来当兵吧!当兵其实并不可怕。

因为应征入伍后你无非有两种可能:

有战争或者没有战争,没有战争有啥可怕的?

有战争那就又有两种可能:

上前线或者不上前线,不上前线有啥可怕的?

上前线那就又有两种可能:

受伤或者不受伤,不受伤又有啥可怕的?

受伤后那就又有两种可能:

轻伤和重伤,轻伤有啥可怕的?

重伤后那就又有两种可能:

可以治好和治不好,可治好有啥可怕的?

治不好,那你就死了,死了还有啥可怕的呢?”

如此地有理有据振振有词——

统计学漫谈概率(概率和统计的陷阱)(2)

相比之下,同时期的美国海军征兵广告就显得很严肃正经——当然,仅仅是显得——因为它就这么一句话:

“美国海军的死亡率比纽约市民还要低!”

这句话当然很有吸引力,下面还附有详细的统计数据:

据统计,现在纽约市民的死亡率是每千人有16人;而即使在战时,美国海军士兵的死亡率也不过每千人9人。

潜台词不言而喻:美国海军是一个比都市纽约还要更安全的地方,你还不来,更待何时?

比较陆军和海军的征兵广告,我们会发现,前面的例子显得很逗,但大多数人会一笑了之;而后一个例子,由于它有“科学的”统计作为基础,所以没准还真能蒙住一些不仔细想明白的人!

当然啦,其实原因也很简单:

在纽约市民的死亡人口里,大多数应该都是生存能力较差的老人、病人、婴儿等;

而海军士兵大多由精壮的成年人组成,这些成年人在都市里也许死亡率还不到千分之二,可是在海军里却达到了死亡率千分之九。

所以显然对这些成年人而言,海军是更加危险的所在。

道理其实并不复杂——两个死亡率所面向的统计对象并不一样,所以结论并没有可比性——但由于它披着“统计”“数字”的外衣,于是那些相信“数字不会说谎”的善良人们,悄悄地就被蒙了。

今天的主题就是这个:来看一些由概率统计的陷阱构成的趣味问题。

【换还是不换?】

这个问题之前我们有提到过,也给出过详细的解释,待会看不明白的小伙伴可以点此阅读原文。

假设你正在参加一个节目,你面前有三扇门,其中有一扇门里是一辆崭新的汽车,另外两门里都是一只羊。

——这里我们假设汽车比羊值钱哈。

你选择了其中一扇门,然后知道汽车位置的主持人打开了一扇你未选中的门,让你看到门里是一只羊。

统计学漫谈概率(概率和统计的陷阱)(3)

此时还有两扇门是闭着的,其中的一扇是你之前选的。

于是主持人问你,你是否要更换选择?还是坚持原来的选择?

也许有很多人会本能地认为更换选择没有意义,而且由于现在只剩两门,所以你选中汽车的概率是50%,是吧!

你错了。

在这个问题里,换门要比坚持原来的选择更划算:

两者之间并不是50%对50%。

问题就出在给你打开一扇门的主持人,其实他并不是随意打开的。

他知道汽车的位置,所以他开的门里永远不会有汽车。

这样一来,由于你一开始选中汽车的概率是1/3,所以如果你更换一次选择,你后来选中汽车的概率将为2/3;而如果你坚持原始选择,不做更换,则你选中汽车的概率将仍然只有开始的1/3。

注意这里的微小的区别:如果主持人也蒙在鼓里,他随便打开了一扇门,然后你发现里面是羊——这种情况下,换不换,选中汽车的概率都是50%。

被概率骗了的感觉呼之欲出有木有!

这个经典的问题被称为三门问题,最早是在一档电视节目中出现,主持人名叫蒙提霍尔,所以也被称为蒙提霍尔问题。

值得注意的是,当时这个节目播出后,有无数人质疑这一结论,其中甚至还不乏教授和高等学者。但事实证明这一结论是对的,质疑者们忽略了主持人是知道真相的这一细节。

【背面到底是什么?】

你的面前有三张纸片,其中一张两面全红(记为A),一张两面全黑(记为B),还有一张一面红一面黑(记为C)。

统计学漫谈概率(概率和统计的陷阱)(4)

我把三张纸片都收起来,然后给你展示其中一张的一面,比如是红色。

这时我问你,你猜这张纸片的背面是红还是黑?

你会猜红还是黑?

第一反应是不是和前面那个问题类似:红黑各半?

因为有红色的纸片就AC两张,所以展示出来的纸片自然就是AC的其中之一;

而又因为它俩背面是一红一黑,所以自然是各占50%啊。

你错了。

因为你看到的这张红色的面,它可能是A的正面,也可能是A的背面,也可能是C的正面。

这三种可能性是等概率的,各占1/3。

而在这三种情况下,前两种的背面都仍然是红色,只有第三种的背面是黑色。

也就是说,你看到的这张红色的面,其背面仍然是红色的概率高达2/3,是黑色的概率却只有1/3。

这个问题叫做贝特朗箱子悖论,原题是有三个箱子,每个箱子有两个隔板,每个隔板中放着黄金或者白银——对应着纸片的两个面为红色黑色。

【生日的悖论】

统计学漫谈概率(概率和统计的陷阱)(5)

1、需要多少人在一起,就能保证其中有两人生日相同?

2、需要多少人在一起,就很有可能出现两人生日相同?

第一个问题很好解答:由于一年有365天(简化问题,不考虑2月29日生日的小伙伴哈),这样可能存在的不同生日有365种;那么根据抽屉原理,要有366个人在一起,才能保证其中至少有两个人生日相同。

这当然是正确的。

第二个问题呢?

从保证出现生日相同到有很大可能出现生日相同,稍微放宽了一点点限制,带来的结论却有着意想不到的突破。

我们的第一反应,是不是觉得至少得有一两百人,才很可能出现两个人生日相同?

又错了。

概率论的计算告诉我们,只要任取23个人,其中出现生日相同的情况就超过了50%;换言之,在23个人中,有人生日相同的可能性就超过了没有人生日相同的可能性。

事实上,我们将“人数”和“出现生日相同的人的概率”对应的关系制成下表:

统计学漫谈概率(概率和统计的陷阱)(6)

从图中可以看出,这两者之间并不是“平稳”增长的关系。

随着人数的增加,在10到50个人之间,出现生日相同的可能会急剧陡增:

10个人中,出现生日相同的可能只有约10%;

23个人中,出现生日相同的可能已超过50%;

41个人中,出现生日相同的可能已超过90%;

57个人中,出现生日相同的可能已达到99%!

而从99%到100%,需要从57个人增加到366个人。

想不到吧!

这也难怪,我们可以回想下,从小学到大学,是不是总是能发现班上有同月同日生的童鞋!

概率诚不我欺。

【哪个数字开头最多?】

在你平时看到的所有的数中,以哪个数字开头的数出现的最多?

统计学漫谈概率(概率和统计的陷阱)(7)

第一反应,似乎1~9开头的概率都差不多吧?

事实可能要让你大跌眼镜:

以1开头的数占到了30%!

这是美国物理学家本福特发现的,所以被称做本福特定律,也被称为第一数字定律。

关于该定律的发现,有一个(似乎不太可信的)故事说,本福特在图书馆翻阅对数表(数学家编制的一种便于查阅对数的表)时发现:

表里以1开头的书页比其他的书页更脏一些,说明在平时会被更多的人翻阅。

他的进一步研究发现:在随机出现的数中,只要数据的样本足够大,那么其中以1开头的数出现的频率并不是平均值1/9=11.1%,而是高达30%。

以2开头的数出现的频率是17.6%,也远超过平均值11.1%。

从3往后,每个数字为首出现的频率依次减少,以9开头的数出现频率最低,只有4.6%。

具体可参见下图,其中横坐标为开头的数字,纵坐标为概率的百分数。

统计学漫谈概率(概率和统计的陷阱)(8)

这个定律广泛存在于我们日常生活的方方面面,我们平时所接触到的很多数据,比如人口、科学常数、体育竞技比赛的统计表,乃至数学公式中的斐波纳契数列、指数数列……各种完全无关的数据中,都有这个定律作用的身影。

因此,人们可以用它来检验某些经济、会计、金融甚至选举中的数据,典型的例子就是利用本福德定律来检验被审计单位是否作假,来提高审计效果。

事实上,科学家依据这一定律发现了2004年美国总统选举中,佛罗里达州的投票欺诈行为;

又比如在2001年,美国最大的能源交易商安然公司宣布破产,当时就传出了该公司高层管理人员涉嫌做假账的传闻;而事后人们发现,安然公司在2001年到2002年所公布的每股盈利数字就不符合本福特定律:这是数据被改动过的强力佐证。

猜您喜欢: