伯努利大数定律由什么推导？伯努利试验及大数定律

小君 2023-01-12 10:59:06 592

伯努利大数定律由什么推导？伯努利试验及大数定律但是如果我们研究一副纸牌中的两张牌一次只能抽一张并认为黑色纸牌是成功那么在抽完第一张纸牌后再抽第二张纸牌时独立性就丧失了。这是因为如果第一张牌是梅花A（一次成功）那么它将影响第二次的抽取结果——它使得第二次抽出黑色纸牌的可能性减小第二次抽出A的可能性也减小而且绝对不可能还是抽到一张梅花A。当我们做试验时有一个关键的条件：这些重复的试验必须是相互独立的。独立一词不仅有专业定义而且还传达了适合我们目标的含义：如果一个事件的结果绝不会对另一个事件的结果产生影响那么这两个事件就是相互独立的。例如史密斯生一个儿子与约翰逊生一个女儿是两个相互独立的事件。又例如投掷一枚一角硬币与投掷一枚一分硬币的结果（正面或反面）也是相互独立的一枚硬币的结果不会对另一枚硬币的结果产生影响。伯努利试验是一个有两种结果的简单试验。它的结果是成功或失败黑或白

作者 | [美]威廉·邓纳姆(Willian Dunham)

翻译 | 冯速

来源 | 节选自《数学那些事：伟大的问题与非凡的人》，人民邮电出版社，2022年3月。[好玩的数学]获授权转载，在此感谢！

伯努利大数定律由什么推导？伯努利试验及大数定律(1)

首先伯努利试验不是佛罗伦萨的一道法律程序而是初等概率论的基础在我们对不确定世界的理解中起着重要的作用。

伯努利试验是一个有两种结果的简单试验。它的结果是成功或失败黑或白开或关。没有中间的立场没有妥协的余地没有优柔寡断的安慰。

这样的例子太多了。我们观察从一副纸牌中拿出的一张牌它或是黑色或是红色。我们接生一个婴儿这个婴儿或是女孩子或是男孩子。我们经历24小时的一天或者遇到流星或者遇不到流星。在每一种情况下很方便设计一种结果为“成功” 另外一种结果为“失败”。例如选出一张黑色牌、生一个女儿、没有遇到流星都可以标识为成功。然而从概率的角度看选择红牌、儿子或者遇到流星为成功也是不会产生差异的。在这种场合下成功一词没有价值取向的色彩。

单个伯努利试验没有太大的意义。然而当我们反复进行伯努利试验并观察这些试验有多少是成功的、多少是失败的事情就变得很有意义了这些累计记录包含很多潜在的非常有用的信息。

当我们做试验时有一个关键的条件：这些重复的试验必须是相互独立的。独立一词不仅有专业定义而且还传达了适合我们目标的含义：如果一个事件的结果绝不会对另一个事件的结果产生影响那么这两个事件就是相互独立的。例如史密斯生一个儿子与约翰逊生一个女儿是两个相互独立的事件。又例如投掷一枚一角硬币与投掷一枚一分硬币的结果（正面或反面）也是相互独立的一枚硬币的结果不会对另一枚硬币的结果产生影响。

但是如果我们研究一副纸牌中的两张牌一次只能抽一张并认为黑色纸牌是成功那么在抽完第一张纸牌后再抽第二张纸牌时独立性就丧失了。这是因为如果第一张牌是梅花A（一次成功）那么它将影响第二次的抽取结果——它使得第二次抽出黑色纸牌的可能性减小第二次抽出A的可能性也减小而且绝对不可能还是抽到一张梅花A。

幸运的是这种独立性的缺失可以通过一个简单的对策加以弥补。在抽取第一张纸牌之后把它放回到原来的纸牌中重新洗好然后再抽。因为我们的第一张纸牌已经重新混入到原来的纸牌中所以它的身份对第二次抽取已经不再产生影响。在这种意义下独立事件要求为每一次试验创造一个不留痕迹的平台从而使得每次试验成功的概率保持相同。

伯努利试验最鲜明的例子出现在博弈游戏中例如投掷硬币或者骰子。对于硬币来说每一次投掷显然是独立的因此在每次投掷时成功的概率（比如说得到正面的概率）是相同的。说一枚硬币是“平衡的” 意思是这个概率正好是1/2。对于一枚均匀的骰子如果我们指定投出3是成功那么我们成功的概率总是1/6。

但是如果我们投掷一枚硬币五次会发生什么呢？在这五次投掷中得到三个正面和两个反面的概率是多少呢？推而广之如果我们投掷这枚硬币500次得到247次正面和253次反面的概率是多少呢？这是一个看似噩梦般的问题但是它的解却出现在早期的概率论杰作之一——雅各布 • 伯努利（Jakob Bernoulli 1654—1705）的《猜度术》之中。

伯努利是瑞士本土人他的祖父、父亲和岳父都是富裕的药剂师。他抛弃了臼和研棒去大学研究神学并于22岁那年获得了学位。然而尽管他的家族都与医药有关并且他接受的是布道方面的教育但他真正感兴趣的却是数学。

从17世纪70年代末开始直到去世伯努利一直都是世界上最杰出的数学家之一。他是一个天才却有着令人讨厌的个性他目空一切对那些不具天赋的人的努力嗤之以鼻。例如在研究了我们今天所谓的“伯努利数”（为了纪念他而命名）之后伯努利找到了对正整数幂求和的一种非常巧妙的捷径。他说“自己用了不到七分半钟”就确定了前1000个正整数的十次幂的和。也就是说他用了不到十分钟就确定了下面的结果：

这的确是个巨大的和。但是他在一份亲自主笔的评论中自我标榜说他的捷径“清楚地表明布里奥的工作是多么无用……他（布里奥）不过是费了好大劲计算了上面的前六个幂的和而我用一页纸就完成了全部计算”。这个人对可怜的伊斯梅尔 • 布里奥（Ismael Bullialdus）没有一点同情心他不仅拥有一名数学家的非凡洞察力而且也不同寻常地自负。

雅各布 • 伯努利的巅峰时期正是戈特弗里德 • 威廉 • 莱布尼茨发现微积分的时期雅各布是普及这一丰硕成果的重要人物之一。同任何新发展起来的理论一样微积分得益于那些紧跟其首创者脚步的人得益于那些才华不如莱布尼茨的学者他们的贡献是对这一门学科加以整理这是必不可少的。雅各布就是这样一位贡献者。

伯努利大数定律由什么推导？伯努利试验及大数定律(2)

[瑞士巴塞尔 Birkhäuser Verlag AG出版社许可翻印这是1969年由弗莱肯施泰因(J.O. Fleckenstein)编辑的《雅各布 • 伯努利全集卷1：新星自然哲学》中的一幅画像]

在这项事业中他有一位令人不安的同盟者约翰（Johann 1667—1748）——他的弟弟与他的名字首字母相同这就是极富才华但爱争吵的伯努利兄弟。事实上雅各布曾充当他弟弟的数学老师的角色。在之后的岁月里他也许后悔把约翰教得如此好因为事实证明这位弟弟是一位与他不相上下的数学家甚至也许超过了他。兄弟二人为争夺数学霸权展开了激烈竞争。当约翰解决了曾经难倒哥哥的某个问题时他总是毫不掩饰自己的兴奋尽管雅各布故意叫约翰为他的“小学生” 暗示约翰只是在效仿他这位导师。这两个伯努利都算不上是高尚的人。

一次著名的冲突起源于悬链线的问题。悬链线是固定在墙上两点的悬链所形成的曲线（见图B-1）。熟悉代数的人也许猜测这条链沿着一条抛物线弧垂悬这样一个完美的合乎逻辑的猜测早在17世纪初就被伽利略这样的人物想到了。但是这样悬挂的链其实不是抛物线到了1690年雅各布 • 伯努利正在为确定这条曲线的真实身份而非常努力地研究着也就是说他要给出它的方程。

伯努利大数定律由什么推导？伯努利试验及大数定律(3)

图 B-1

事实证明雅各布不能胜任这项任务。当约翰给出答案时不难想象雅各布惊讶的样子。后来约翰在炫耀他的胜利时说为了这个解决方案“我全身心地去研究整晚不休息”。他气人的本领与他的才华一样出色约翰匆匆忙忙跑到雅各布面前告诉一直苦思冥想的哥哥问题的答案。雅各布一下子垂头丧气。

但是雅各布要实施他的“报复”。这一次的战场是所谓的等周问题说的是从有相同周长的曲线中区分出哪条曲线围出的面积最大。我们将在第I章中更详细地讨论这个问题但是现在可以先看一下雅各布 • 伯努利在1697年是如何运用微积分来描述这个问题的。他要对付一个难缠的叫作三阶微分方程的数学对象这项工作为一个现在称为变分法的新数学分支指出了道路这一分支有着广泛的研究前景。

弟弟约翰与他的意见不同并说已经用一个相对简单的二阶微分方程解决了这个等周问题。如同以往伯努利家的情况一样他们的争吵变成对抗最终只是因为缺少“弹药”而停止。

伯努利大数定律由什么推导？伯努利试验及大数定律(4)

约翰·伯努利（卡内基-梅隆大学图书馆惠允）

然而这次是雅各布笑到了最后因为弟弟的二阶微分方程是不正确的。遗憾的是实际上雅各布没有机会大大嘲笑一番哪怕是微微冷笑因为在1705年他就去世了而当时约翰对这个问题的错误解仍然神秘地密封在巴黎学院的办公室。有这样一种推测约翰已经认识到了自己的错误并设法把这个错误偷偷地掩藏起来这样就不用忍受公开的羞辱让哥哥看笑话。

这些趣事充分展现了他们兄弟之间的不和因此发生下面的事也就一点都不奇怪了。当时人们都认为约翰是编辑他刚去世的哥哥的论文的最合适的人选但是雅各布的遗孀却阻止了这件事因为她担心有报复心的约翰会破坏雅各布留下的数学遗产。霍夫曼（J. E. Hofmann）在《科学家传记大辞典》中对雅各布的个性也许做了最好的描述：“他任性、固执、好斗、有报复心而且受自卑心的困扰但是他对自己拥有的才能还是有自信的。因为有这样的个性所以他必然会同有相同个性的弟弟发生冲突。”的确雅各布和约翰是因傲慢自大而自毁名声的那种人。

暂且不谈他们兄弟之间的竞争我们回到前面提到的概率问题：如果投掷一枚均匀的硬币五次产生三次正面和两次反面的概率是多少呢？在《猜度术》中雅各布 • 伯努利给出了一般规则：如果我们重复操作n m次独立试验（即n m次伯努利试验）其中任意一次试验成功的概率是p 而失败的概率是1-p 那么正好得到n次成功和m次失败的概率由下面的公式给出。

为了化简上面这个公式数学家引入了阶乘的记法：

例如 3!=3×2×1=6，5!=5×4×3×2×1 =120。（注意阶乘中的感叹号不是要求我们大点声说话。）由于有了这样便利的记法伯努利结果则化简成：

伯努利大数定律由什么推导？伯努利试验及大数定律(5)

因此在投掷一枚均匀的硬币五次之后得到三个正面的概率就是设n=3，m=2，p=Prob（投出一个正面）=1/2。于是有

伯努利大数定律由什么推导？伯努利试验及大数定律(6)

同样为了求投掷一枚骰子15次正好得到五个4的概率我们声明得到一个4是“成功” 且指定值：

伯努利大数定律由什么推导？伯努利试验及大数定律(7)

于是经过15次独立的投掷得到5个4的概率是

这是几乎不可能发生的事情。

回到早前的一个问题投掷一枚硬币500次得到247次正面和253次反面的概率是

这个结果尽管正确但这个概率太复杂无法手算得到而且即使有一个高级的袖珍计算器也无法实现计算500!这样大的数的愿望（对此怀疑的人不妨试一试）。我们将在第N章看到近似求解这种概率的一项技术。但是即使无法这样直接计算这个公式在理论上也还是很完美的。它是求任意一系列独立伯努利试验概率的关键技术。

遗憾的是日常生活中的大多数事件实际上比投掷硬币复杂得多这几乎是太纯粹的概率状况。确定一个25岁的人能活到70岁以上的概率或者确定下一个星期二的降雨量超过一英寸（25.4毫米）的概率或者确定一辆正驶入交叉口的汽车要右转弯的概率求解这些问题绝不是一件容易的事。这些事件因为现实世界的纷繁复杂而使人一筹莫展正如雅各布说的那样：

我要问列举所有可能的情况能够确定在人身体不同部位、不同年龄段折磨他的致命疾病的数量吗？或者说假如能够确定一种疾病比另外一种疾病更具有致命性如瘟疫比水肿更能致人死亡或水肿比发烧更能致人死亡那么基于这样的认识就能够预测未来一代人的生存与死亡之间的关系吗？[6]

这样的概率超出数学的范畴了吗？概率论只能被归类于模拟博弈游戏吗？

伯努利在那本也许是他最伟大的遗产《猜度术》中针对这个问题给出了非常有力的回答。事实上他把这个问题称为他的“黄金定理” 并写道：“就其新颖度和其强大的实用性而言再加上其较大的难度这一定理因其分量和价值已经成为这一学说之最。”今天所谓的伯努利定理就是通常所说的大数定律 它被认为是概率论的中流砥柱之一。

为了对它的性质有所了解再次假设我们正在进行独立的伯努利试验其中每一次试验的成功概率为P。我们知道操作的总试验次数称其为N 而且还知道结果成功的试验次数称其为x。于是分数x/N就是我们观察到的成功的次数比例。

例如如果投掷一枚均匀的硬币100次产生47次正面则观察到的正面比例是47/100=0.47。如果再将这枚硬币投掷100次又产生55次正面则总的成功比例是

没有什么理由阻止他人再把这枚硬币投掷100次或者投掷1亿次只要掷硬币的人不厌其烦。关键的问题是经过长时间的操作成功的比例 x/N 会发生什么变化呢？

当试验的次数增加时应该没有人对发现这个比例接近0.5而感到惊讶。一般来说当 N 变大时我们会看到 x/N 的值趋向一个固定的数p 这是任何一次单次试验的成功的真概率。所以这里就显示出这个定理的威力当成功的概率p未知时在较大次数的试验当中成功的比例p应该是的一个较好的估计值。用符号表示我们应该写成

当N较大时（的意思是“近似等于”）

加上少数几个重要条件这就成了大数定律。伯努利定理之所以如此著名并不是因为它道出了一个真理而是因为很难用严格的论据加以证明。雅各布自己也以他那极具代表性的尖刻语言承认“即使是最笨的人也应该可以本能地理解（大数定律）”。然而为了给出这个定律的正确的证明他付出了二十年的努力给出的证明占据了《猜度术》好几页。事实证明他的评论“这一原理的科学证明并不是那样简单”是有意轻描淡写的陈述。

我们应该说说前文提到的关于伯努利定理的“重要条件”。因为它本质上是一个概率陈述所以它应该是随时可能发生的不确定性。我们不能绝对确定投掷一枚硬币1000次产生正面的比例将比仅投掷100次产生正面的比例更接近0.5。完全有可能投掷100次时产生51次正面而且有可能投掷1000次时只产生486次正面。因此这个“小样本”估测x/N=51/100=0.51实际上应该比“大样本”估测 x/N=486/1000=0.486 更接近投掷正面的真实概率。完全有可能发生这样的事情。

这样说来如果我们再投掷1000次那么每一次投掷都产生正面也不是完全没有可能的。有可能产生一个惊人的结果 2000次投掷产生1486次正面于是估测概率是1486/2000=0.743。在这样的情况下大数定律似乎已经不好使了。

但事实并非如此。因为雅各布 • 伯努利证明的是对于任意给定的小容差比如说0.000 001 估测概率x/N与真实概率p的差是这个小容差或者比它更小的可能性可以接近于1 条件仅仅是增加试验次数。只要做足够多的试验我们几乎可以肯定或者使用伯努利曾经使用的词语道义上肯定我们的估测值x/N与真实概率p之差一定在0.000 001以内。当然我们不能百分之百确定p与x/N之差小于0.000 001 但是大量的试验可以让我们充分肯定这种推断不至于太离谱。

上述情况即投掷均匀硬币2000次而掷出正面的概率被估测为0.743 其可能性有可能小于一个人在看本章时遇到流星的概率。另外即使出现了这样一个不可能的估测值伯努利仍然非常自信地声称通过做大量的试验比如2000次、200万次或更多这个比例x/N肯定趋向于0.5。

要强调的是即使对于这样少的限制条件大数定律仍然是可证明的这一点很重要。这不同于我们在生活中遇到的其他著名定律如墨菲定律和万有引力定律。它们要么是被普遍认可的陈词滥调（如墨菲定律）要么是被高度赞誉的物理模型（如万有引力定律）都要随时根据证据而被修正。但是大数定律是一个数学定理而且已经证明在必须遵守的逻辑限制之下它永远成立。

另外它有自己的用途。保险公司用于调整精算表格的生存概率就是依据大量类似试验（例如人的存活和死亡）的结果。天气预报员预报的下雨概率也是如此。

或者考虑这样的例子回到18世纪求一位妇女生一个男孩而不是女孩的概率。如何能够用某种先验的方式计算出这一概率呢？遗传的复杂因素严重破坏了事先用某种纯理论方法确定生一个男孩的概率状况。于是我们被迫起用“既成事实”或者事后验证以伯努利定律为武器进行处理。

在18世纪早期这个特殊的问题就一直萦绕在英国人约翰 • 阿巴思诺特（John Arbuthnot）的头脑之中。如同其他前人一样他从人口调查记录中注意到每年出生的男孩比女孩稍微多一些并认为这种不平衡已经存在“好多年不仅在伦敦而且在全世界”。阿巴思诺特试图借助“上帝之佑”来说明这一现象。几年后雅各布和约翰的侄子尼古拉斯 • 伯努利继承了家族拥有的数学天分运用大数定律得出结论：生男孩的概率是18/35。换句话说大量的出生记录显示出一种显著而稳定的趋势男女比例18比17。伯努利定理“不仅在伦敦而且在全世界”得到应用。

直到今天它仍在起作用。一项被称为蒙特卡罗方法的技术在伯努利定理和计算机强大威力的帮助下已经变得非常重要因为它能够帮助科学家以概率的模式模拟大范围的随机现象。下面就是蒙特卡罗方法的一个相当简单的示例。假设我们希望求得一个不规则形状的湖面的表面积。我们可以沿着湖边走或者俯拍一张照片但是湖的弯曲和其表面上的不规则边界使得很难用任何数学公式确定其面积。

假设我们的湖呈图B-2中阴影的形状我们已经在图上给出了和的坐标。因为我们计划在第L章中重温这个例子所以选择了一个形状比较规整的湖是一个以轴和方程为的抛物线为边界的湖。

伯努利大数定律由什么推导？伯努利试验及大数定律(8)

图B-2

我们将用概率方法估测它的面积。首先如图所示在的矩形内圈出一个区域。其次任由计算机在这个矩形内寻找任意多个(x y)点。例如计算机也许能够找出如图所示的两个点A=(3.5 7.3) B=(6.0 13.7)。

现在我们要问计算机：这些随机的点是落在这个湖内还是落在了湖外？在我们的例子中这个问题很容易解决。检验点A 我们在抛物线方程中令x=3.5 于是求得对应的值。这表明点(3.5 15.75)在抛物线上。于是比对点A来说点A的第一个坐标相同而第二个坐标只有7.3 它落在了抛物线的里面即在湖内。

类似地当考虑点B时我们在抛物线方程中代入它的第一个坐标得到对应值。因此点(6 12)在抛物线上所以点B(6 13.7)落在抛物线外面砸到了干干的地上。计算机只需要几毫秒的时间就能选择很多随机的点并确定它们是在湖内还是在湖外。

现在看一下根据蒙特卡罗方法的关键观测：随机选出的点落入湖内的精确概率记为p 它是湖面占据矩形的面积的比例即

伯努利大数定律由什么推导？伯努利试验及大数定律(9)

当然我们只有先知道这个湖的面积（这正是我们要求的未知量）才能计算出这个概率。但是我们能够根据x/N来估测点落入湖中的概率p 即落入抛物线内部分的比例。利用长期的成功比例来近似真实概率这本身就是大数定律的直接运用。

对于这个例子我们的计算机在矩形内选出500个点而且发现其中有342个点落入湖内。因此我们估测

伯努利大数定律由什么推导？伯努利试验及大数定律(10)

经过交叉相乘之后这个估测值是

伯努利大数定律由什么推导？伯努利试验及大数定律(11)

因此在没有借助其他任何东西只是利用了伯努利大数定律的情况下我们就得到了湖的面积的粗略的近似值。

我们如何能够得到一个更精确的估测值呢？我们只简单地让计算机在这个矩形内选出5000个点而不是500个点。在这个例子中它发现其中有3293个点在这个湖内因此得到

伯努利大数定律由什么推导？伯努利试验及大数定律(12)

所以也有

伯努利大数定律由什么推导？伯努利试验及大数定律(13)

当然我们还可以让计算机选择50 000个随机点或者500 000个点或者不惜耗电让它选出任意多个点。那么我们会更加有信心得到这个抛物线形湖的面积的估测值。

这是一个初等的模拟实例现实世界中很多更加奇妙的现象都可以利用蒙特卡罗方法加以研究。另外正如我们将在后面看到的那样例子中的抛物线的面积实际上可以用积分方法精确地得到。但是这个例子仍然让我们感受到了概率的威力。

自从雅各布 • 伯努利证明他的伟大定理以来已经过了三个多世纪。他原来的论证已经被更加有效地反映这一事物本质的简化版本所取代这样的情况在数学中很常见。今天的标准证明是根据俄罗斯数学家切比雪夫的一个结果此人我们在第A章中遇到过。这一方法以及如期望值、随机变量的标准差等一系列概念使得我们能够把大数定律的证明简化到一页纸上同时表明伯努利的证明的确很麻烦。然而以伯努利所不具有的宽容精神我们将坚决抵制下面这样的念头：仅因为伯努利的证明需要一章篇幅才能讲清而“我们只需要一页纸就可以完成这项工作” 就把他的工作贴上“无用”的标签。

这就是进步的常态。但是在全人类的奋斗历程中我们最好要记住这些前辈。正如今天的音响技术播放出的音乐要远远优越于19世纪留声机播出的刺耳声音现代概率论也缩短并简化了伯努利的大数定律的证明。尽管一系列的进步已经说明托马斯 • 爱迪生的原创是多么陈旧但是我们仍对他满怀敬仰之情。同样我们也应该为伯努利自感骄傲的黄金定理而给予他同样的尊敬。

伯努利大数定律由什么推导？伯努利试验及大数定律(14)