贝叶斯定理成立的条件:贝叶斯定理的案例解释
贝叶斯定理成立的条件:贝叶斯定理的案例解释我们设A1,A2,A3,A4分别为1、2、3、4号生产线生产的电动车牌,设B为不合格的电动车牌。解题:生产电动车牌的工厂有4条流水生产线,1号生产线生产占比15%,2号生产线生产占比20%,3号生产线生产占比30%,4号生产线生产占比35%。1号生产线生产电动车牌的不合格率为5%,2号生产线生产电动车牌的不合格率为4%,3号生产线生产电动车牌的不合格率为3%,4号生产线生产电动车牌的不合格率为2%。工厂经理很负责任,需保证把合格的电动车牌送到老百姓手上,他从成品中抽出一个电动车牌,发现是不合格的,很是生气,需要对这个不合格电动车牌的生产线员工进行处罚,请问,这个不合格电动车牌出自4号生产线的概率?
摘要:贝叶斯推理的问题是条件概率推理问题,这一领域的探讨对揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策都具有十分重要的理论意义和实践意义。本文深入浅出地介绍贝叶斯定理,先摆出下面贝叶斯公式,看不懂不要紧,我会举一些有趣的例子进行说明介绍。
一、经典案例
现在大街上比较火的就是电动车上牌了,我看到很多电动车都安装上了这种牌,据说里面很高技术含量。
由此我联想到一个经典的概率问题:
生产电动车牌的工厂有4条流水生产线,1号生产线生产占比15%,2号生产线生产占比20%,3号生产线生产占比30%,4号生产线生产占比35%。
1号生产线生产电动车牌的不合格率为5%,2号生产线生产电动车牌的不合格率为4%,3号生产线生产电动车牌的不合格率为3%,4号生产线生产电动车牌的不合格率为2%。
工厂经理很负责任,需保证把合格的电动车牌送到老百姓手上,他从成品中抽出一个电动车牌,发现是不合格的,很是生气,需要对这个不合格电动车牌的生产线员工进行处罚,请问,这个不合格电动车牌出自4号生产线的概率?
解题:
我们设A1,A2,A3,A4分别为1、2、3、4号生产线生产的电动车牌,设B为不合格的电动车牌。
1号生产线生产电动车牌的概率:P(A1)=0.15
1号生产线不合格电动车牌的概率:P(B|A1)=0.05
P(B|A1)表示在A1发生的条件下,B发生的概率,
套入这个应用,就是1号生产线生产电动车牌的条件下,产生不合格电动车牌的概率。
4条生产线,总体生产不合格电动车牌的概率,即P(B)是多少呢?这个就是全概率公式,把每种可能性相加。
即:
P(B)=P(A1)P(B|A1) P(A2)P(B|A2) P(A3)P(B|A3) P(A4)P(B|A4)=0.15*0.05 0.2*0.04 0.3*0.03 0.35*0.02=0.0315=3.15%
接下来开始烧脑了。。。。
P(A4|B)表示在B发生的条件下,A4发生的概率,
套入这个应用,就是既然已经是不合格的电动车牌,那么是4号生产线生产的概率,
P(A4 B)表示A4和B同时发生的概率,
套入这个应用,就是4号生产线生产了电动车牌,而且是不合格的电动车牌发生了。
根据概率乘法原理,
P(A4 B)=P(A4)P(B|A4)
贝叶斯定理来了:
我们把A4代入,就可以得到
P(A4|B)=(P(A4)P(B|A4))/P(B)=(0.35*.0.4)/0.0315=0.222=22.2%
同理,我们可以得出:
P(A1|B)=23.8%
P(A2|B)=25.4%
P(A3|B)=28.6%
也就是说3号生产线被抽出来不合格电动车牌的可能性是最大的,贝叶斯定理就是结果B发生了,求原因是什么,即不合格电动车牌生产出来了,是哪条生产线导致的。
我们把P(A1)到P(A4)叫先验概率,就是1-4号生产线占比多少,这个很简单,点数就可以,题目也给出来了。P(A1|B)到P(A4|B)叫后验概率,就是求原因(谁干的可能性)。
二、一个有趣的真相
假设某个国家防疫措施做得不好,新冠肺炎的发病率为0.04%,这个国家也比较积极地进行核酸检测,但是核酸检测也有误差,假设 有新冠肺炎的患者 核酸检测结果为阳性的概率为99%,检测结果为阴性的概率为1%;一个健康的人 核酸检测结果为阳性的概率为0.1%,核酸检测结果为阴性的概率为99.9%。那么一个人去医院做核酸检测,检测结果为阳性,他得新冠肺炎的概率是多少?
解题:
有新冠肺炎的患者:A1
健康的人:A2
核酸检测结果为阳性:B
依照题目可以得出:
有新冠肺炎的患者的概率:P(A1)=0.0004
健康的人的概率:P(A2)=0.9996
有新冠肺炎的患者,检测为阳性的概率:P(B|A1)=0.99
健康的人,检测为阳性的概率:P(B|A2)=0.001
总体核酸检测结果为阳性的概率:
P(B)=P(A1) P(B|A1)
P(A2) P(B|A2)
=0.0013956
所以,代入贝叶斯定理,结果为阳性,真的是新冠肺炎的患者的概率为:
P(A1|B)=P(A1 B)/P(B)
=(P(A1) P(B|A))/P(B)
=0.0004*0.99/0.0013956=0.284
这个结果超乎想象,我们以一万人为例仔细地验证一下
也就是说,你检测出有阳性,你真的有病的概率只有28.4%。还好,我们国家的检测正确率是100%。解决的办法倒也很简单,就是先锁定可疑的人群,比如10000人中检查出现问题的那14个人,再独立重复检测一次。
但是由这一个例子,我们可以换成其他病,如癌症之类了,发病率万分之四,患者到医院检查,99%有病,1%查不出病,健康的人到医院检查,99.9%检查没病,0.1%查出有病,大部分医院这样的概率是很正常的,是很高可靠性的。然而,一个人,去医院检查,检查结果是有病,他真的有病的概率只有28.4%,所以大家不要因为检查出一点什么问题就杞人忧天,积极配合医生诊断,有病概率是很低的,这是数学计算出来的结果。
三、人工智能与贝叶斯定理
由上述例子,引发了我的另外一个设想,就举个发烧的例子,很多种原因引起发烧,如感冒、肺炎、白血病、失恋等,医院把以前患者的数据录入一个基于贝叶斯定理的软件,让很多的数据进入软件数据库,让软件自己去学习,得出一个先验概率,即发烧的原因,各个症状(感冒、肺炎、白血病、失恋)占比多少,接着计算后验概率,即发烧了,是什么原因引起的(各种原因发生的概率),然后往最大概率的方向去检查或者医治,或许可以减少很多不必要的检查,这就是贝叶斯定理在人工智能上的应用。
无人驾驶、语音图片识别与大数据有什么关系?垃圾短信、垃圾邮件如何识别?为什么某宝等软件总是推荐我们喜欢看的东西?这些看起来不相关的领域之间会有什么联系吗?答案是,它们都会用到同一个数学公式——贝叶斯公式,它虽然看起来很简单、很不起眼,但却有着深刻的内涵,它可以根据过去的数据来预测出未来事情发生概率,其实都挺好的。