快捷搜索:  汽车  科技

科学家都会犯的26个统计学错误(一个问题引发的统计学派之争)

科学家都会犯的26个统计学错误(一个问题引发的统计学派之争)频率学派认为,自然界的某些性质会保持不变,这些性质被叫作“参数”的东西记录下来,这个玩意的变量特性是常数,往往是未知而不变的。而这些性质唯一的观测方式就是由带有这个性质的系统产生的变量。比如人群的身高期望,硬币正面向上的概率等,通过抽一群人测身高,扔一堆硬币,我们可以就可以比较准确的计算人群身高和硬币正面向上概率这两个性质。频率学派大家不妨在往下读之前可以先自己想想自己的思路,看看自己想的和我后面写的有没有相通之处。问题作者借此题说了他的贝叶斯模型的思路,并认为这样想理所当然。我看了以后,觉得贝叶斯确实是一个流行的好想法,但是却并不是唯一想法,联想到一些其他思路和对模糊的题意理解方式,我认为有三种学派和理解以及四个不同答案,而且,不仅答案值不一样,他们相互之间并没有可比性,因为他们对题中要求的答案的定义都完全不同。从中我们会回顾从概率统计到机器学习的一些经典模型,希望读之能有所收获。

一天我偶然刷知乎刷到这样一个问题,细想之后,觉得值得和大家分享我的理解:

假设某市流行一种病,发病率是0.1% 。在某地的医院中有一个神医,特别擅长诊断该病。神医做出正确判断的概率是99%。(神医并不清楚发病率,做出正确判断的概率实在实验室得出来的。对于检查是否患病的人,他的正确率不变。)有一次你去看病,神医诊断说你有这个病。请问你真正有这个病的概率是多少?

图1 神医

科学家都会犯的26个统计学错误(一个问题引发的统计学派之争)(1)

图2 生病的你

科学家都会犯的26个统计学错误(一个问题引发的统计学派之争)(2)

大家不妨在往下读之前可以先自己想想自己的思路,看看自己想的和我后面写的有没有相通之处。

问题作者借此题说了他的贝叶斯模型的思路,并认为这样想理所当然。我看了以后,觉得贝叶斯确实是一个流行的好想法,但是却并不是唯一想法,联想到一些其他思路和对模糊的题意理解方式,我认为有三种学派和理解以及四个不同答案,而且,不仅答案值不一样,他们相互之间并没有可比性,因为他们对题中要求的答案的定义都完全不同。

从中我们会回顾从概率统计到机器学习的一些经典模型,希望读之能有所收获。

频率学派

频率学派认为,自然界的某些性质会保持不变,这些性质被叫作“参数”的东西记录下来,这个玩意的变量特性是常数,往往是未知而不变的。而这些性质唯一的观测方式就是由带有这个性质的系统产生的变量。比如人群的身高期望,硬币正面向上的概率等,通过抽一群人测身高,扔一堆硬币,我们可以就可以比较准确的计算人群身高和硬币正面向上概率这两个性质。

问题来了,到底测多少人身高算够?扔多少次硬币算够?能够准确地测量这个参数?

实践上,对于这种一元变量,测个几十上百次基本上就比较稳定,可以近似当成真值了。而对于复杂问题,这种平常经验却是无效的。比如,你要抽样多少个对话系统的答案,多少query的搜索结果,所得统计结论才能在多少置信度下提升多少?

频率学派最重要的思考就是把置信度计算,假设检验语言这一套理论说清楚了,而它的大前提是每个量:哪个是参数,是哪个分布的什么参数,哪个是变量,是哪个分布产生的变量,要定义得一清二楚。在这个条件下,我们可以计算一般意义的点估计,置信区间估计,这两种套路给了我们两种回答问题的模式,对应解决问题到两个程度:

点估计,给出估计值以及性质:参数的极大似然/矩估计值是X,具有无偏/有效/一致等兴致:

置信区间估计,给出置信区间以及置信度:参数在A的置信度下的置信区间是[X Y];

前者的估计值往往就近似地拿着去做推断了,但是严格来看还要做复杂的推断结果的分布计算以及置信度计算等;而后者一般就让人听着舒服一下,觉得还比较可信和范围接受就完事了,因为不知道具体值为多少,不好再往下推演了。

但是统计学最基本的,还需要能回答一些老板关于是还是否的问题:

人口平均身高到底超过170没有?硬币向上的概率超过0.6没有?

其实这些问题和参数值一样,都不可以直接观测,伟大的频率学派学者发明了假设检验语言,在上面基础上,能对任何这类相关的判断类问题给出答案,并给出所谓检验水平来说明答案置信程度(p值法);

p值法那个p值啊,就是一个评价指标而已,用的是超出假设范围的随机变量的可能性大小。

所以,整个频率学派留下来的精华就是:给出性质不错的参数值,不信就给个区间和置信度,硬是要我下结论,就假设检验好了。而做这些事情的前提是定义清楚参数,变量和分布形式。频率学派就是这么一套方法论和建模思路。

在本问题上实践一下这个建模思路:如果有病与否是个确定的未知参数,那要么通过对该参数下产生的样本来估计,要么有人直接告诉我参数值为多少,或者置信度为何,就像上帝视角一样给出已知条件。本问题中,并没有估计样本,这个参数值也和发病率没有任何关系,仅能把医生的判断作为该未知参数值的1的置信度,即:

结论一:

根据医生的说法,有病与否这个参数为1的置信度为0.99。

这个置信度,和扔了一堆硬币样本算的硬币正面向上概率在一个区间X内的置信度为Y是一个意思,只不过这里的向上概率这个[0 1]范围的变量为估计参数,问题中有病与否这个bool变量为估计参数。

自然地,这里还有另外一个思路:得病概率是未知参数,得病结论是唯一的变量。此时,这个变量并不可观测,频率学家眼里,医生这种不能打保票的话是不予采纳的!那得了,这个参数相关分布的变量,得没得病这件事没有绝对的观测,咋办,不怕啊,上帝告诉我了发病率啊,这个不就是适用每个人的得病概率啊!

结论二:

根据发病率信息,有病与否的概率值为0.001。

怎么样,是不是感觉频率学派有点生硬,无法融合多方信息,非黑即白,结论逻辑通顺但是似乎并不那么好用?

正式这样,贝叶斯学派才体现它的价值。

贝叶斯学派

贝叶斯同学和他的信徒们清晰地意识到了客观世界之复杂,变量直接的影响关系往往顺序地有好几个层次,并不像一般地参数-随机变量这样单一。而他们的具体建模方式是:一个对象既可以作为某个分布的随机变量结果,也可以作为下一个分布的参数或到此终止。至于有多少层次和相互的因果关系法则,这要看具体的实际问题假设来构建,频率学派的一层模型仅仅是最简单的特例。我们能够处理估计任何参数值的问题(往往是极大似然估计)以及某变量在所有信息条件下的分布问题。

在这里,根据题意,构建贝叶斯DAG(有向无环图)如下:

科学家都会犯的26个统计学错误(一个问题引发的统计学派之争)(3)

P1: 得病概率,这里即是发病率,为已知参数,P1 = 0.001;

X: 是否得病的随机变量,服从伯努利分布:X ~ B(1 P1);

Y: 神医的诊断结果,依据题意,有:(Y==X) ~ B(1 P2),P2 = 0.99;

在这个模型中,所有的参数都是已知的,不需要做参数估计,一切随机变量的分布就都可以计算。

故原题所求即为:

科学家都会犯的26个统计学错误(一个问题引发的统计学派之争)(4)

结论三:

根据发病率先验和神医诊断后验判断,由贝叶斯公式,得得病与否的随机变量的后验分布仍然为伯努利分布,其分布参数约为0.090。

香农信息学派

这里泛指熵的引入,以及无向图模型的系统描述方法等一系列成果。

香农同学在他的硕士研究论文中奠定了直到今天还在沿用的信息论基础,在统计学中的意义即是,统一了市面上给出的几乎所有的分布表达式的共同源头:最大熵模型,并且逐渐总结出了指数分布族这样的工具方便地对任意分布形式进行建模。

贝叶斯的有向图模型的问题是,无论是否存在,必须假定一个变量间的顺序生成过程,这个在一些时空系统中大体成立,可是你要硬说是因为体重重所以身高高还是反过来成立,就怎么说都有点牵强了。强行构造的因果一定会因为和真实生成过程不符合导致最后的模型效果的偏离啊。有些变量之间是看不见摸不着的相关关系,并没有谁先谁后的因果关系啊!

于是,我们把所有要研究的认为重要的变量列出来,按照认定其有无直接关系,即在其他变量都已知的条件下,二这是否独立这件事的答案来决定是否连上一条无向边,最后找到最大团计算势函数,根据Hammersley-Clifford定理,得到最后的分布表达式。

我觉得,这些知识的大致逻辑是这样的:无向图提供了一种表达关系的方法(因子图也是,有向图也是,甚至还包括工程上CRF模型用的特征模版也是如此。),最大熵模型是一个给定约束条件下求解最佳分布的准则,执行的的最大信息熵目标,达到的是平均来看最小的和真实分布的交叉熵。而Hammersley-Clifford定理,则恰是在无向图方式限定函数的变量关联方式条件下最大熵模型的结论形式罢了。

回到我们研究的问题,如果用无向图模型来理解,其图示应该是这样的:

科学家都会犯的26个统计学错误(一个问题引发的统计学派之争)(5)

字母含义同贝叶斯模型,且严格来说,P1,P2是两个X,Y分布的约束,而不再是一个分布的固定参数了。

其对应的最大熵模型为:

科学家都会犯的26个统计学错误(一个问题引发的统计学派之争)(6)

注意,最后求解答案所用的公式是条件概率公式而已,并不是贝叶斯模型,贝叶斯模型的核心的有向图加条件概率公式。

这里所选取的特征仅有两个,而且都是给定了特征函数期望值的,由于没有真正的样本,所以没有很好的条件去使用其他的特征了,否则这个约束下的最优化问题就没法给出一个简单的唯一可行解,也是最优解了。

结论四:

根据最大熵模型准则,在题设条件都成立的条件下,得到的最大熵模型的解,由条件概率公式得,此时得病概率为0.910。

总结

哈哈,一道这么简单的问题搞出四个大相径庭的答案来了,有必要么,到底信谁的呢?其实啊,这些结论都是在各自的理论下站的住脚的,也是完全不同的世界观,方法论的推演结果,虽然都是一个数,但他们并无可比性,所代表的含义分别为参数置信度,变量服从分布的参数值,后验概率以及最大熵的解下的条件概率。他们互相井水不犯河水。

这些思考不能帮助你迅速解决这个问题,但是能帮助提升你的思维能力到一个新的档次。

猜您喜欢: