概率分布转化成逻辑回归公式(正态分布一核心的概率分布)
概率分布转化成逻辑回归公式(正态分布一核心的概率分布)在我们的自然界,大多数物种的高度和重量都满足正态分布,它们围绕着均值对称分布,而且不会包含特别大或特别小的事件.正态分布概念是由法国数学家棣莫弗于1733年首次提出的,后由德国数学家高斯率先将其应用于天文学研究,故正态分布又叫高斯分布,高斯这项工作对后世的影响极大,所以有了“高斯分布”的美称。正态分布,也称“常态分布”,又名高斯分布,正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。正态分布函数公式如下:其中μ为均数,σ为标准差。μ决定了正态分布的位置,与μ越近,被取到的概率就越大,反之越小。σ描述的是正态分布的离散程度。σ越大,数据分布越分散曲线越扁平;σ越小,数据分布越集中曲线越陡峭。在一个标准正态分布中,约有 68.2% 的点落在 ±1 个标准差的范围内。约有 95.5% 的点落在 ±2 个标准差的范围内。约有 99.7% 的点落在 ±3 个标准差
互联网时代每天产生的数据正在以指数级增长,如何看透数据背后隐藏的秘密和规律,统计学概率论应运而生,很快成为科学的基础工具,渗透到了整个自然科学和社会科学领域。
概率论是研究随机现象数量规律的数学分支,它可以帮助我们应对不确定性、预测未来、并做出科学决策。面对随机而又复杂的世界,数学家用分布来刻画变量的变差(在某个类型内部的差异)和多样性(不同类型之间的差异),将变量表示为在数值上或类别上定义的概率分布。分布为事件或价值分配概率。
每日降雨量、考试分数或身高的分布为每一个可能的结果值分配一个概率。各种统计量将分布中包含的信息压缩为单个数值,例如均值是分布的平均值。
社会科学家经常通过均值来比较各个国家的经济发展水平。例如:2020年,美国的人均国内生产总值为63051美元,日本为39048美元,中国是10582美元。 常见的概率分布有泊松分布,二项分布,伯努利分布,正态分布,均匀分布。其中正态分布是最为核心的概率分布。
一、认识正态分布正态分布,也称“常态分布”,又名高斯分布,正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
正态分布函数公式如下:
其中μ为均数,σ为标准差。μ决定了正态分布的位置,与μ越近,被取到的概率就越大,反之越小。σ描述的是正态分布的离散程度。σ越大,数据分布越分散曲线越扁平;σ越小,数据分布越集中曲线越陡峭。在一个标准正态分布中,约有 68.2% 的点落在 ±1 个标准差的范围内。约有 95.5% 的点落在 ±2 个标准差的范围内。约有 99.7% 的点落在 ±3 个标准差的范围内。
正态分布概念是由法国数学家棣莫弗于1733年首次提出的,后由德国数学家高斯率先将其应用于天文学研究,故正态分布又叫高斯分布,高斯这项工作对后世的影响极大,所以有了“高斯分布”的美称。
在我们的自然界,大多数物种的高度和重量都满足正态分布,它们围绕着均值对称分布,而且不会包含特别大或特别小的事件.
例如:我们从来没有遇到过1米长的蚂蚁,也没有看到过1千克重的大象。世界似乎被代表正态分布的“钟形”包围着,很多事物都是服从正态分布的:人的高度、胖瘦、寿命、雪花的尺寸、测量误差、灯泡的寿命、IQ分数、面包的分量、学生的考试分数,员工上班所需时间等等。
正态分布有以下几个特征:
集中性:曲线的最高峰位于正中央,且位置为均数所在的位置。
对称性:正态分布曲线以均数所在的位置为中心左右对称且曲线两端无线趋近于横轴。
均匀变动性:正态分布曲线以均数所在的位置为中心均匀向左右两侧下降。
面积恒等:曲线与横轴间的面积总等于1。
正态分布有两个非常重要的参数,它们分别是:样本的均值和标准差。均值是样本中所有点的平均值。均值定义了正态分布的峰值位置,大多数值都集中在均值周围。标准差是表示数据集与样本均值的偏离程度。标准差定义了正态分布的宽度,决定了观察值与均值的偏离程度。标准差越小,正态分布曲线越窄。标准差越大,正态分布曲线越宽。当分布较窄时,值落在均值附近的概率会更高。
正态分布的解释力非常强,因为分布的均值、众数和中位数是相等的;我们只要用平均值和标准差就可以解释整个分布。
就数学理论而言,正态分布有其优越性:
①两个正态分布的乘积仍然是正态分布;
②两个正态分布的和是正态分布;
③正态分布的傅里叶变换仍然是正态分布。
二、正态分布产生的原因钟形分布曲线无处不在,这是为什么呢?其奥秘来自于中心极限定理。
中心极限定理:只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一小部分随机变量贡献了大部分变差,那N≥20个随机变量的和就近似一个正态分布。
中心极限定理告诉我们:
任何一个样本的平均值将会约等于其所在总体的平均值。
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。
案例1:在一个500人的小城镇中,人们的购买行为数据显示,每个人平均每个星期花费100美元。在这些人中,可能有些人这个星期只花50美元、下个星期则花150美元,另一部分人可能每3个星期花费300美元。而其他人则可能每个星期的花费在20至180美元之间。只要每个人的支出都只有有限的变差并且没有任何一小部分人贡献了大部分变差,那么分布的总和必定是一个正态分布,其均值为50000美元。每个星期的总支出也将是对称的:可能高于55000美元,也可能低于45000美元。
案例2:中心极限定理来解释人类身高的正态分布。一个人的身高取决于基因、环境以及两者之间的相互作用。基因的贡献率可能高达80%,因此不妨假设身高只取决于基因。研究表明,至少180个基因有助于人体长高。
例如,一个基因可能有助于长出较长的颈部或头部,另一个基因可能有助于长出更长的胫骨。虽然基因之间存在相互作用,但我们可以假设在“长高”这件事情上,每个基因都是相互独立的。如果身高等于180个基因贡献的总和,那么身高将呈现正态分布。
高尔顿钉板试验更加形象地证明了正态分布。弗朗西斯•高尔顿是英国著名的统计学家、心理学家和遗传学家。他设计了一个钉板实验,希望从统计的观点来解释遗传现象。
如下图所示,木板上钉了数排(n排)等距排列的钉子,下一排的每个钉子恰好在上一排两个相邻钉子之间;从入口处放入若干直径略小于钉子间距的小球,小球在下落的过程中碰到任何钉子后,都将以1/2的概率滚向左边,以1/2的概率滚向右边,碰到下一排钉子时又是这样。如此继续下去,直到滚到地板的格子里为止。试验表明,只要小球足够多,它们在底板堆成的形状将近似于正态分布。因此,高尔顿钉板实验直观地验证了中心极限定理。
中心定理并不是万能的,他拥有三个很重要的前提:随机、独立和相加。
首先,第一个前提就是取样需要随机。如果我们抽取人的时候,只抽取长的高的或者只抽取长得矮的人,那么结果自然不符合正态分布。
第二,影响结果的因素是相互独立或者是相互影响比较小的。以身高为例,影响一个人长高的因素有很多,例如:父母长得高还是矮、营养是否跟得上、是否热爱运动......等等。父母长得高还是矮,对营养的补充没有很大的关系,跟是否热爱运动也没有关系,所以可以看成是相互独立的因素,所以身高的人群分布曲线自然就符合正态分布。
第三是相加,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。如果各种因素对结果的影响不是相加,而是相乘,那么最终结果就变成了对数正态分布。
在一定条件下,各种随意形状概率分布生成的随机变量,它们加在一起的总效应,是符合正态分布的。中心极限定理告诉我们:无论引起过程的各种效应的基本分布是什么样的,当实验次数n充分大时,所有这些随机分量之和近似是一个正态分布的随机变量。
中心极限定理从理论上证明了,在一定的条件下,对于大量独立随机变量来说,只要每个随机变量在总和中所占比重很小,那么不论其中各个随机变量的分布函数是什么形状,也不论它们是已知还是未知,当独立随机变量的个数充分大时,它们的和的分布函数都可以用正态分布来近似。这就是为什么实际中遇到的随机变量,很多都服从正态分布的原因,这使得正态分布既成为统计理论的重要基础,又是实际应用的强大工具。中心极限定理和正态分布在概率论、数理统计、误差分析中占有极其重要的地位。
三、正态分布的应用场景1、检验显著性
我们可以利用正态分布的规律来检验各种平均值的显著性差异。显著性检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。其原理就是“小概率事件实际不可能性原理”来接受或否定假设。如果经验均值与假设均值之间的偏差了超过两个标准差,那么社会科学家就会拒绝这两种均值相同的假设。
例如:现在提出这样一个假设,即旧金山的通勤时间与洛杉矶的通勤时间相同。假设数据表明,旧金山的通勤时间平均为33分钟,而洛杉矶为34分钟。如果这两个数据集的均值标准差都是1分钟,那么我们就不能拒绝旧金山和洛杉矶两地通勤时间相同的假设。虽然二者的均值不同,但只存在1个标准差。如果洛杉矶的平均通勤时间为37分钟,那么我们就会拒绝这个假设,因为均值之间相差4个标准偏差。
2、六西格玛方法
六西格玛方法是摩托罗拉公司于20世纪80年代中期提出的,目的是减少误差,该方法根据正态分布对产品属性进行建模。试想这个例子:一家企业专业生产制造门把手所用的螺栓。它生产的螺栓必须天衣无缝地与其他制造商生产的旋钮组装在一起。规格要求是螺栓直径为14毫米,但是任何直径介于13毫米与15毫米之间的螺栓也可以接受。如果螺栓的直径呈正态分布,均值为14毫米,标准差为0.5毫米,那么任何超过两个标准差的螺栓都是不合格的。
两个标准差事件发生的概率为5%,这个概率对于一家制造企业来说太高了。六个西格玛要求每一百万个机会中有3.4个出错的机会,即合格率是99.99966%。企业可以根据中心极限定理,从整体中抽样几百个,并根据这样一个样本来估计均值和标准差。然后推断出正态分布。这样一来,这家螺栓制造企业就可以得出一个基准标准差,然后花大力气去降低它。
3、对数正态分布
中心极限定理要求我们对随机变量求和或求平均值,以获得正态分布。如果随机变量是不可相加而是以某种方式相互作用的,或者如果它们不是相互独立的,那么产生的分布就不一定是正态分布。例如,独立随机变量之间的乘积就不是正态分布,而是对数正态分布。对数正态分布缺乏对称性,因为大于1的数字乘积的增长速度比它们的和的增长速度快,比如,4 4 4 4=16,但4×4×4×4=256;而小于1的数字的乘积则比它们的和小,比如,1/4 1/4 1/4 1/4=1,但1/4*1/4*1/4*1/4=1/256。如果将20个不均匀地分布在0到10之间的随机变量相乘,那么多次相乘后所得到的乘积将会包括一些很接近于零的结果与一些相当大的结果,从而生成如下图所示的对数正态分布。
对数正态分布
一个对数正态分布的尾部长度取决于随机变量相乘的方差。如果它们的方差很小,尾巴就会很短,如果方差很大,尾巴就可能会很长。如前所述,将一组很大的数相乘会产生一个非常大的数字。在各种各样的情况下都会出现对数正态分布,包括新冠肺炎的传染人数、大多数国家的收入分布也近似于对数正态分布。
一个简单的模型可以解释为什么收入分布更接近于对数正态分布而不是正态分布。这个模型将与工资增长有关的政策与这些政策所隐含的分布联系起来。大多数企业和机构都按某种百分比来分配加薪,表现高于平均水平的人能够得到更高百分比的加薪,表现低于平均水平的人则只能得到更低百分比的加薪。与这种加薪方法相反,企业和机构也可以按绝对金额来分配加薪。例如普通员工可以获得1000美元的加薪,表现更好的人可以获得更多,而表现更差的人则只能获得更少。
百分比加薪方法与绝对金额加薪方法两者之间的区别乍一看似乎只是语义上的区别,但其实不然。如果每一年的绩效都是相互独立且随机的,那么根据员工绩效按百分比加薪,就会产生一个对数正态分布。即使后来的表现相同,未来几年的收入差距也会加剧。
假设一名员工因过去几年表现良好,收入水平达到了80000美元,而另一名员工则只达到了60000美元。在这种情况下,当这两名员工的表现同样出色并都可以获得5%的加薪时,前者能够获得4000美元的加薪,后者却只能得到3000美元的加薪。这就是说,尽管绩效完全相同,不平等也会导致更大的不平等。如果企业按绝对数额分配加薪,那么两名绩效相同的员工将获得相同的加薪,由此产生的收入分布将接近正态分布。
总结正态分布启示我们,要用整体的观点来看事物。用整体来看事物才能看清楚事物的本来面貌,才能得出事物的根本特性。不能只见树木不见森林,也不能以偏概全。同时正态分布曲线及面积分布图告诉我们一定要抓住重点,因为重点就是事物的主要矛盾,它对事物的发展起主要的、支配性的作用。正态分布是科学的世界观,也是科学的方法论,是我们认识和改造世界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。
正态分布如此重要,不仅因为它在自然界普遍存在,还因为它是被证明的、其他复杂概率分布的演化结果,可以说是所有概率分布的最终宿命。根据“熵增”原理,一个孤立系统的熵总是在不断增大。而对一个已知均值和方差的分布,正态分布的熵值最大,即这个孤立系统中的所有结果持续演化,最终一定是呈正态分布的稳定状态。对于宇宙熵增的最终稳定态,是宇宙各部分能量达到平衡,失去活力,陷入热寂。
参考资料:
《模型思维》
作者:斯科特·佩奇
浙江人民出版社
《从掷骰子到阿尔法狗:趣谈概率》
作者:张天蓉
清华大学出版社