数据科学行业痛点(大数据时代下的避坑指南)
数据科学行业痛点(大数据时代下的避坑指南)所以,以后各位在看到“平均工资”这种统计结论,就可以一笑置之了。由于异常值的影响,人们基本不使用“平均收入”这个概念,而使用“可能收入”或“普遍收入”。同时,人们还引入了“收入中位数”的概念,用来避免异常值造成的影响:假设你把所有的荷兰人按照收入从低到高排成一排,那么站在最中间的那个人的收入即为荷兰人的收入中位数。我真的差点儿就信了。直到前几天读了桑内·布劳《数据如何误导了我们》这本书,才发现自己走入了数字陷阱被它欺骗了。这里作者用了统计学里一则古老的笑话就说明了问题:要是比尔·盖茨上了一辆公交车,那么车上的每位乘客平均下来就都是百万富翁了。这就是关于平均值最需要值得关注的一点:测量过程的异常值可能会对结果带来极大的影响。
《数据如何误导了我们》封面图 ©️Liz_Van
愚蠢的数据
第一次看统计学。没想到自己也被“坑”了许多年。
举例来说,我所在的城市每年都喜欢发一篇所谓“当年平均工资”的文章,每次当我看到标题上动辄1万左右的数字都悲愤交加,当然有着跟我同样心态的人不乏少数,评论里网友们怨声载道,哀怨地诉说着自己拖了城市的后腿。我几乎每年都会被这件事糟心一次,却又总觉得现实也许不一定如此,但作者言之凿凿地宣布数据出自官方统计局,是非常正经客观的数据。
我真的差点儿就信了。直到前几天读了桑内·布劳《数据如何误导了我们》这本书,才发现自己走入了数字陷阱被它欺骗了。
这里作者用了统计学里一则古老的笑话就说明了问题:要是比尔·盖茨上了一辆公交车,那么车上的每位乘客平均下来就都是百万富翁了。
这就是关于平均值最需要值得关注的一点:测量过程的异常值可能会对结果带来极大的影响。
由于异常值的影响,人们基本不使用“平均收入”这个概念,而使用“可能收入”或“普遍收入”。同时,人们还引入了“收入中位数”的概念,用来避免异常值造成的影响:假设你把所有的荷兰人按照收入从低到高排成一排,那么站在最中间的那个人的收入即为荷兰人的收入中位数。
所以,以后各位在看到“平均工资”这种统计结论,就可以一笑置之了。
被智商测试侮辱了智商
智商≠智力
在1904年的以前,法国心理学家阿尔弗雷德·比奈用一种已使用多年的方法测量智力:量颅骨的大小。但当比奈开始用卷尺量学生们的头围时,他才发现成绩好的学生和成绩差的学生之间,颅骨大小的差异极其微小。现在的我们看来,这简直是胡说八道的狗屁理论,然而要知道以前的人们确实是这么认为的。于是,比奈于1904年在学生的帮助下制作了一份测试题,测试题里面问题的难度逐渐加强。学生能回答到哪一题就对应了他的心智年龄是多少。这就是比奈第一份智力测试的原理。
不久之后,心理学家(怎么又是心理学家?!)威廉·斯特恩创造出了“智商”(IQ)一词,即一个人的心智年龄除以其实际年龄等于他的智商。
到了2007年,专门研究人工智能的沙恩·莱格和马库斯·胡尔特收集到了超过70条对智力的不同描述,然后提炼出了一条包含所有内容的描述:“智力是衡量一个人或事物在各种情况下达成目标的能力。”
这句话是肉眼可见的模糊难辨。作者举例,按照这种说法,如果一个人在不被其他人发现的情况下下,半夜偷偷地潜入一栋房子,然后从冰箱中偷走一瓶酒,那就可以说这个人是聪明的。当然,在智力测试里你是不会轻易碰到这种题目的。
以当下最流行的韦氏智力测试为例,题目涉及词汇量、数字序列和空间洞察力这些和抽象思维相关的内容。
然而我们不要忘记了,智力测试题从初期发展至今,设计智商测试题的人并不是代表了大多数人,也不是代表了少数人,更不是护士、木匠或销售员,而是像比奈这样受过西方高等教育,同时又痴迷于数字的人。在他们设计的测试题中,他们才不管你照顾病人、造出一张桌子或是与人打交道的能力有多强,这些都不重要。
所以我们有理由充分质疑智商背后的数字是否真的可以成为一个人的智力水平,仅仅凭借一个数字,就选择是否雇佣一个人,这实在是有失公允。
作为一名计量经济学家,同时又身兼数据分析记者的桑内·布劳在书中以大量的历史实例为切口,从南丁格尔用大数据来挽救生命,到美国烟草业报告造假,再到欧盟公投中的票数摇摆,揭示了日常生活中的数据偏见。对没有统计学概念的普通人来说是非常友好了,看得过程也是有趣又启发思考。作为一本基础统计学入门来说,充分激发了读者极大的兴趣和好奇心。
而关于数据究竟如何误导了我们,也可以简单地总结为——直觉、认知偏差和利益关联改变了客观存在,操纵了政治生活,误导了我们每一次的抉择。
看完这本书之后,简直想要质疑这个世界上所有的数据,然而数字本身和文字一样是无辜的,犯错的是数字背后的人。细心的桑内·布劳在将要面对数据时给出的建议是:
1、这个数字是由谁提供的?
2、我对这个数字有什么感觉?
3、人们是如何将它标准化的?
4、数据是如何被采集的?
5、数据是如何被分析的?
6、数据是如何呈现的?
每一次在对自己熟悉或不熟悉的领域,我们都该首先在摈弃个人情绪的前提下,再多点一下鼠标,然后去拥抱不确定性,最后警惕数据其中的利益冲突,那么距离真相就是真的进了一步,而作者在本书想要表达的初衷也算是实现了。顺便再感谢一下最后的推荐阅读。
1.《统计数字会说谎》(Darrell Huff How to lie with statistics)
2.《数字是靠不住的》(Charles Seife Proofiness)
3.《魔鬼数学》(Jordan Ellenberg How Not to Be Wrong)
4.《国家的视角》(James C.Scott Seeing Like a State)
5.《人类简史》(Yuval Noah Harari Sapiens)
6.《人类的误测》(Stephen Jay Gould ThéMismeasure of Man)
7.《极简GDP史》(Diane Coyle A Brief But Affectionate History)
8.《平均美国人》(Sarah Igo The Averaged American)
9.《数字化的性别》(David Spiegelhalter Sex by Numbers)
10.《贩卖怀疑的商人》(Naomi Oreskes,Erik Conway Merchants of Doubt)
11.《算法霸权》(Cathy O'Neil,Weapons of Math Destruction)
12.《你的确需要隐藏些什么》(Maurits Martijn Dimitri Tokmetzis Je hebt wél iets te verbergen)
13.《思考,快与慢》(Daniel Kahneman Thinking Fast and Slow)
14.《超预测》(Philip Tetlock Dan Gardner Superforecasting)
15.《一个人的医学》(Archibald Cochrane Max Blythe One Man's Medicine)
16.《弗洛伦斯·南丁格尔》(Mark Bostridge Florence Nightingale)
17.《阿尔弗雷德·查尔斯·金赛》(James Jones Alfred C.Kinsey)