贝塔值(轻松理解beta分布)
贝塔值(轻松理解beta分布)根据第一种做法,令p代表粉球处在0-1范围内的某一个位置,X代表最终状态下,粉色球左边的白球个数,则根据全概率公式可以得当知道所有球的最终状态时,我们不知道球的状态是通过以上哪种方法得到的,因此这两者是一个相等的过程。beta分布的常数部分也可以写成gamma函数的形式,下面采用两种方法来求beta分布的常数部分B(α β)的值。我们容易想到的方法是对beta函数进行分部积分可得重复迭代上式得另外一种方法,则完全不需要进行积分计算,而是通过一个概率模型来求解。这个概率模型称为贝叶斯台球。现在有n 1个台球,全部都是白色,有两种做法:
beta函数与beta分布在《你不知道的阶乘与gamma函数》中,提到欧拉在探索阶乘的一般形式时,提出了一种积分函数
其实就是beta函数,beta函数表示为
等式两边都除以B(α β)可以得到beta分布的概率密度函数[0 1]范围内的积分
则beta分布的概率密度函数为
beta分布的常数部分也可以写成gamma函数的形式,下面采用两种方法来求beta分布的常数部分B(α β)的值。我们容易想到的方法是对beta函数进行分部积分可得
重复迭代上式得
另外一种方法,则完全不需要进行积分计算,而是通过一个概率模型来求解。这个概率模型称为贝叶斯台球。现在有n 1个台球,全部都是白色,有两种做法:
- 将其中一个涂成粉色,再独立的丢球,将所有的球丢到0到1长度范围内的绳子上
- 先把所有球丢到0到1长度范围内的绳子上,再将任意一个球涂成粉红色
当知道所有球的最终状态时,我们不知道球的状态是通过以上哪种方法得到的,因此这两者是一个相等的过程。
根据第一种做法,令p代表粉球处在0-1范围内的某一个位置,X代表最终状态下,粉色球左边的白球个数,则根据全概率公式可以得
由于粉球所在的位置属于0-1的均匀分布,所以f(p)=1,且可知白球落在粉球左边的概率为p,右边为1-p,则可以得到
根据第二种做法,丢球的过程不会影响最终的结果,只有将任意一个球涂成粉红色的过程影响X,因此概率P(X=k)为定值1/(n 1),即在n 1个白球中任意挑一个球涂成粉球,挑到第k 1个白球的概率。
两种做法的结果相等,可以得到
整理得
将k=α-1 n-k=β-1代入上式可得
所以beta分布的概率密度函数还可以表示为
撒旦的游戏与beta分布beta分布与gamma分布一样,具有概率统计的意义,可以从概率统计的例子中得出beta函数的概率分布函数。
假如有一天你被魔鬼撒旦抓走了,撒旦说:“你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把灵魂出卖给我。游戏的规则很简单,我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0 1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对。”你应该怎么猜呢?
现在要知道第7大的数是什么,我们就得知道第7大的数的概率分布是怎样的。将游戏转化成数学概念得:
- X1 X2 X3 … Xn ~ Uniform(0 1),即X满足0到1上的均匀分布。
- N个随机变量排序后的统计量为X(1) X(2) X(3) …X(n)
- X(k)的分布是什么?
现在求X(k)的分布是什么,首先我们求X(k)落在区间[x x ∆x]的概率。这样我们就将[0 1]分成了三段,[0 x),[x x ∆x),[x ∆x 1]。
现假设只有1个数落到[x x ∆x]中,即X(k),因为X(k)是第k大的数,所以[0 x)中有k-1个数,[x ∆x 1]中有n-k个数。由于X满足均匀分布,那么数落到[0 x)的概率是x,落到[x x ∆x]的概率是∆x,落到[x ∆x 1]的概率是1-x-∆x。n个数中有一个落到[x x ∆x]有n种取法,剩余n-1个数有k-1个数落到[0 x)中。总共的取法可以类比成将n个一样的球,扔到3个不同的桶中,a桶扔1个球,b桶扔k-1个球,c桶扔剩下的n-k个球。则只有X(k)落到[x x ∆x]的概率为
其中o(∆x)表示∆x的高阶无穷小。
当有2个数落在[x x ∆x]中时,概率为
其中C代表取法数量,为常量。可以看出,超过1个数落在[x x ∆x]的概率都是o(∆x)。
那么P(x<=X(k)<=x ∆x) = P(只有X(k)在区间[x x ∆x]) P(大于1个数在区间[x x ∆x]),表示为
所以得到X(k)的概率密度函数为
将α=k,β=n-k 1代入得
可以发现f(x)是beta分布的概率密度函数,则X(k)~Beta(α β)。
现在我们知道X(k)属于beta分布,要知道X(k)最可能的数,即求beta分布的众数。解法很简单,求beta分布的概率密度函数(0 1)范围内的极值点。则对beta分布的概率密度函数求导得
其中C为常数,令导数值为0,得到(0 1)范围内的x的值为
当α>1且β>1时,该点为极大值点。
回到撒旦的问题,n=10,k=7 则α=7,β=4。取Beta(7 4)为极大值时的x的值即可。
现在提出一个问题,假如撒旦问的问题不是第7大的数最可能是什么,而是问从10个数中任意取一个数,这个数第7大的概率是多少,答案又是什么呢?
二项分布与beta分布通过一个简单的抛硬币场景,来理解二项分布与beta分布的关系。
我们现在有一枚硬币,我们想知道抛它头朝上的概率p是多少。通常我们的做法都是抛(n m)次硬币,其中n次硬币头朝上,于是我们判断硬币头朝上的概率p为n/(n m)。显然这是粗略的估计,尤其是当(n m)的值比较小的时候。下面我们通过两个随机变量来模拟这个场景。令X表示硬币头朝上的概率,X为先验分布时符合0-1的均匀分布,N表示抛(n m)次硬币头朝上的次数,我们可以知道(N|X)为二项分布。
现在我们通过抛硬币来估计硬币头朝上的概率,求(X|N)的概率密度函数。利用贝叶斯理论得
其中f(X=x)为常量1,因为X作为先验分布时符合0到1的均匀分布。P(N=n)也是一个常量。P(N=n|X=x)是求二项分布的概率。得
由于P(N=n)为常数,则f(X=x|N=n)属于beta分布的概率密度函数。(X|N)则满足beta分布。由于X满足0-1的均匀分布,是一种特殊的beta分布,即Beta(1 1),将α=1,β=1代人beta分布的概率密度函数可得函数值恒为1,正是0-1均匀分布的概率密度函数,因此0-1均匀分布属于特殊的beta分布。
在贝叶斯推断中
后验分布 ∝ 先验分布*似然函数
这个例子中的先验分布是Beta(1 1),似然函数是Bin(n m x),后验分布是Beta(n 1 m 1)。后验分布和先验分布都是Beta分布,我们称在后验分布和先验分布形式相同时,先验分布与似然函数是共轭的。所以可以看出Beta分布是二项分布的共轭分布。利用这个性质,我们可以得到一个一般的形式
Beta(a b) BinomCount(n m) = Beta(a n b m)
其中Beta(a b)为事件的先验分布,可以是均匀分布。BinomCount(n m)表示实验数据,n表示事件成功的次数,m表示事件失败的次数。利用Beta分布与二项分布的共轭关系,可以直接根据观察到的二项分布的数据来推导事件的后验分布。
通过一个简单的例子来理解。
逛淘宝的时候,大家都会货比三家,根据用户对商家的评论,来判断商品的质量,最后决定在哪一家下单。假如A商家有10条评论,其中9条好评,1条差评。B商家有500条评论,其中400条好评,100条差评。这个时候应该去哪一家下单呢?
这里就可以通过Beta分布与二项分布的共轭关系来解决。A、B商家商品质量的先验分布都是均匀分布Beta(1 1),A商家的实验数据为BinomCount(9 1),B商家的实验数据为BinomCount(400 100),所以可以得到A商家商品质量的后验分布是Beta(10 2),B商家商品质量的后验分布是Beta(401 101)。在做选择之前,先了解一下Beta分布的期望与方差。
这样我们可以算出,A商家的商品质量的平均值为10/(10 2)≈0.8333,方差为20/(12*12*13)≈0.01068。B商家的商品质量的平均值为401/(401 101)≈0.7988,方差为401*101/(502*502*503)≈0.00032。再取一个95%的置信区间,A商家的商品质量范围在[0.58 0.98]之间,B商家的商品质量范围在[0.76 0.84]之间。可以看出A商家的商品质量平均值更高,但是方差更大。所以在选择的时候,如果更追求商品质量的稳定性,则选B商家,如果想碰碰运气买到高质量商品,则选A商家。
Beta分布的另外一个重要应用是CTR预估,此文不详细阐述。