统计学漫谈概率(概率和统计的陷阱)
统计学漫谈概率(概率和统计的陷阱)上前线那就又有两种可能:上前线或者不上前线,不上前线有啥可怕的?因为应征入伍后你无非有两种可能:有战争或者没有战争,没有战争有啥可怕的?有战争那就又有两种可能:
上世纪中叶,为了应付两次世界大战,美国军队向社会征兵。
在这个过程中,发生了两件很有意思的事。
首先是美国陆军的征兵广告:
“来当兵吧!当兵其实并不可怕。
因为应征入伍后你无非有两种可能:
有战争或者没有战争,没有战争有啥可怕的?
有战争那就又有两种可能:
上前线或者不上前线,不上前线有啥可怕的?
上前线那就又有两种可能:
受伤或者不受伤,不受伤又有啥可怕的?
受伤后那就又有两种可能:
轻伤和重伤,轻伤有啥可怕的?
重伤后那就又有两种可能:
可以治好和治不好,可治好有啥可怕的?
治不好,那你就死了,死了还有啥可怕的呢?”
如此地有理有据振振有词——
相比之下,同时期的美国海军征兵广告就显得很严肃正经——当然,仅仅是显得——因为它就这么一句话:
“美国海军的死亡率比纽约市民还要低!”
这句话当然很有吸引力,下面还附有详细的统计数据:
据统计,现在纽约市民的死亡率是每千人有16人;而即使在战时,美国海军士兵的死亡率也不过每千人9人。
潜台词不言而喻:美国海军是一个比都市纽约还要更安全的地方,你还不来,更待何时?
比较陆军和海军的征兵广告,我们会发现,前面的例子显得很逗,但大多数人会一笑了之;而后一个例子,由于它有“科学的”统计作为基础,所以没准还真能蒙住一些不仔细想明白的人!
当然啦,其实原因也很简单:
在纽约市民的死亡人口里,大多数应该都是生存能力较差的老人、病人、婴儿等;
而海军士兵大多由精壮的成年人组成,这些成年人在都市里也许死亡率还不到千分之二,可是在海军里却达到了死亡率千分之九。
所以显然对这些成年人而言,海军是更加危险的所在。
道理其实并不复杂——两个死亡率所面向的统计对象并不一样,所以结论并没有可比性——但由于它披着“统计”“数字”的外衣,于是那些相信“数字不会说谎”的善良人们,悄悄地就被蒙了。
今天的主题就是这个:来看一些由概率统计的陷阱构成的趣味问题。
【换还是不换?】
这个问题之前我们有提到过,也给出过详细的解释,待会看不明白的小伙伴可以点此阅读原文。
假设你正在参加一个节目,你面前有三扇门,其中有一扇门里是一辆崭新的汽车,另外两门里都是一只羊。
——这里我们假设汽车比羊值钱哈。
你选择了其中一扇门,然后知道汽车位置的主持人打开了一扇你未选中的门,让你看到门里是一只羊。
此时还有两扇门是闭着的,其中的一扇是你之前选的。
于是主持人问你,你是否要更换选择?还是坚持原来的选择?
也许有很多人会本能地认为更换选择没有意义,而且由于现在只剩两门,所以你选中汽车的概率是50%,是吧!
你错了。
在这个问题里,换门要比坚持原来的选择更划算:
两者之间并不是50%对50%。
问题就出在给你打开一扇门的主持人,其实他并不是随意打开的。
他知道汽车的位置,所以他开的门里永远不会有汽车。
这样一来,由于你一开始选中汽车的概率是1/3,所以如果你更换一次选择,你后来选中汽车的概率将为2/3;而如果你坚持原始选择,不做更换,则你选中汽车的概率将仍然只有开始的1/3。
注意这里的微小的区别:如果主持人也蒙在鼓里,他随便打开了一扇门,然后你发现里面是羊——这种情况下,换不换,选中汽车的概率都是50%。
被概率骗了的感觉呼之欲出有木有!
这个经典的问题被称为三门问题,最早是在一档电视节目中出现,主持人名叫蒙提霍尔,所以也被称为蒙提霍尔问题。
值得注意的是,当时这个节目播出后,有无数人质疑这一结论,其中甚至还不乏教授和高等学者。但事实证明这一结论是对的,质疑者们忽略了主持人是知道真相的这一细节。
【背面到底是什么?】
你的面前有三张纸片,其中一张两面全红(记为A),一张两面全黑(记为B),还有一张一面红一面黑(记为C)。
我把三张纸片都收起来,然后给你展示其中一张的一面,比如是红色。
这时我问你,你猜这张纸片的背面是红还是黑?
你会猜红还是黑?
第一反应是不是和前面那个问题类似:红黑各半?
因为有红色的纸片就AC两张,所以展示出来的纸片自然就是AC的其中之一;
而又因为它俩背面是一红一黑,所以自然是各占50%啊。
你错了。
因为你看到的这张红色的面,它可能是A的正面,也可能是A的背面,也可能是C的正面。
这三种可能性是等概率的,各占1/3。
而在这三种情况下,前两种的背面都仍然是红色,只有第三种的背面是黑色。
也就是说,你看到的这张红色的面,其背面仍然是红色的概率高达2/3,是黑色的概率却只有1/3。
这个问题叫做贝特朗箱子悖论,原题是有三个箱子,每个箱子有两个隔板,每个隔板中放着黄金或者白银——对应着纸片的两个面为红色黑色。
【生日的悖论】
1、需要多少人在一起,就能保证其中有两人生日相同?
2、需要多少人在一起,就很有可能出现两人生日相同?
第一个问题很好解答:由于一年有365天(简化问题,不考虑2月29日生日的小伙伴哈),这样可能存在的不同生日有365种;那么根据抽屉原理,要有366个人在一起,才能保证其中至少有两个人生日相同。
这当然是正确的。
第二个问题呢?
从保证出现生日相同到有很大可能出现生日相同,稍微放宽了一点点限制,带来的结论却有着意想不到的突破。
我们的第一反应,是不是觉得至少得有一两百人,才很可能出现两个人生日相同?
又错了。
概率论的计算告诉我们,只要任取23个人,其中出现生日相同的情况就超过了50%;换言之,在23个人中,有人生日相同的可能性就超过了没有人生日相同的可能性。
事实上,我们将“人数”和“出现生日相同的人的概率”对应的关系制成下表:
从图中可以看出,这两者之间并不是“平稳”增长的关系。
随着人数的增加,在10到50个人之间,出现生日相同的可能会急剧陡增:
10个人中,出现生日相同的可能只有约10%;
23个人中,出现生日相同的可能已超过50%;
41个人中,出现生日相同的可能已超过90%;
57个人中,出现生日相同的可能已达到99%!
而从99%到100%,需要从57个人增加到366个人。
想不到吧!
这也难怪,我们可以回想下,从小学到大学,是不是总是能发现班上有同月同日生的童鞋!
概率诚不我欺。
【哪个数字开头最多?】
在你平时看到的所有的数中,以哪个数字开头的数出现的最多?
第一反应,似乎1~9开头的概率都差不多吧?
事实可能要让你大跌眼镜:
以1开头的数占到了30%!
这是美国物理学家本福特发现的,所以被称做本福特定律,也被称为第一数字定律。
关于该定律的发现,有一个(似乎不太可信的)故事说,本福特在图书馆翻阅对数表(数学家编制的一种便于查阅对数的表)时发现:
表里以1开头的书页比其他的书页更脏一些,说明在平时会被更多的人翻阅。
他的进一步研究发现:在随机出现的数中,只要数据的样本足够大,那么其中以1开头的数出现的频率并不是平均值1/9=11.1%,而是高达30%。
以2开头的数出现的频率是17.6%,也远超过平均值11.1%。
从3往后,每个数字为首出现的频率依次减少,以9开头的数出现频率最低,只有4.6%。
具体可参见下图,其中横坐标为开头的数字,纵坐标为概率的百分数。
这个定律广泛存在于我们日常生活的方方面面,我们平时所接触到的很多数据,比如人口、科学常数、体育竞技比赛的统计表,乃至数学公式中的斐波纳契数列、指数数列……各种完全无关的数据中,都有这个定律作用的身影。
因此,人们可以用它来检验某些经济、会计、金融甚至选举中的数据,典型的例子就是利用本福德定律来检验被审计单位是否作假,来提高审计效果。
事实上,科学家依据这一定律发现了2004年美国总统选举中,佛罗里达州的投票欺诈行为;
又比如在2001年,美国最大的能源交易商安然公司宣布破产,当时就传出了该公司高层管理人员涉嫌做假账的传闻;而事后人们发现,安然公司在2001年到2002年所公布的每股盈利数字就不符合本福特定律:这是数据被改动过的强力佐证。