快捷搜索:  汽车  科技

大数据技术算法是什么(你真的了解大数据)

大数据技术算法是什么(你真的了解大数据)《当收入只够填饱肚子》作者——琳达·提拉多来源丨本文内容综合选自《算法霸权:数学杀伤性武器的威胁》编辑丨阿巷;实习生 杰怡“帮人们找工作、找伴侣,预测模型潜移默化地塑造和控制着我们的命运。凯茜·奥尼尔带我们踏上了一场愤怒与神奇之旅,这本书的语言简单得就像是在对话,但它是重要的对话。我们对技术要小心谨慎。”

每周一本书

让阅读,丰满人生

大数据技术算法是什么(你真的了解大数据)(1)

大数据技术算法是什么(你真的了解大数据)(2)

21君:我们生活在一个依赖“算法”的时代,未来20年,算法和大数据将席卷世界,接管我们的生活、社会和经济。广告、排名、求职、信用……我们生活中的很多方面都将落入自动化的数据分析之下。

数据没有价值观,是中立的,但来自人类行为的输入,难免隐含偏向。数据科学家凯西•奥尼尔将有害模型称为“数学杀伤性武器”,它们是如何影响我们的?了解它,才能改变它。

来源丨本文内容综合选自《算法霸权:数学杀伤性武器的威胁》

编辑丨阿巷;实习生 杰怡

大数据技术算法是什么(你真的了解大数据)(3)

“帮人们找工作、找伴侣,预测模型潜移默化地塑造和控制着我们的命运。凯茜·奥尼尔带我们踏上了一场愤怒与神奇之旅,这本书的语言简单得就像是在对话,但它是重要的对话。我们对技术要小心谨慎。”

——琳达·提拉多

《当收入只够填饱肚子》作者

题记

算法:

“数学杀伤性武器”

大数据技术算法是什么(你真的了解大数据)(4)

图片来源 / 图虫

2008 年秋,全球金融危机爆发了。房地产危机,大型金融机构倒闭,失业率上升,在幕后运用着神奇公式的数学家们成为这些灾难的帮凶。

要是我们当时头脑清醒的话,就会后退一步思考,数学是怎么被我们误用的?我们该如何防止未来发生同样的灾祸?

但是,金融危机发生以后,新的数学技术变得比以往更热门,而且,数学逐渐不再关注全球金融市场动态,而是开始关注我们人类本身。数学家和统计学家一直在研究我们的欲望、行动和消费能力,一直在预测我们的信用,并用结果来评估我们作为学生、职员的表现以及是否有变成罪犯的潜力。

这也就是我们所说的大数据经济,其收益前景非常可观。因为这不仅节约时间,而且公平客观。毕竟,电脑程序不像人类带有个人偏见,它只是一台处理数字的无情机器。

然而,我看到的是危机。数学应用助推数据经济,但这些应用的建立是基于不可靠的人类所做的选择。有些选择无疑是出于好意,但也有许多模型把人类的偏见、误解和偏爱编入了软件系统,而这些系统正日益在更大程度上操控着我们的生活。人们对模型得出的结论毫无争议,从不上诉,即使结论是错误的或是有害的。

我为这些有害模型提出了一个名称:“数学杀伤性武器” (Weapons of Math Destruction,简写成WMD)。接下来,我将用一个例子向你们阐明这种模型的破坏性。

无法证明的评估模型:

无从质疑或抗议

大数据技术算法是什么(你真的了解大数据)(5)

图片来源 / 《少数派报告》

2009年,华盛顿特区的教育总督李阳熙为了对本市教学质量不佳的学校进行改革,落实了一项旨在开除教学表现差的教师的计划。他开发了一个叫作IMPACT的教师评估工具,至2009~2010学年末,华盛顿特区开除了评估结果垫底的2%的教师。第二学年末,又开除了5%,也就是206名教师。

华盛顿特区一所公立中学的五年级教师萨拉·韦索基在麦克法兰中学仅任教了两年就得到了校长和学生家长的一致好评,校长表扬她对学生们的教育极负责任,学生家长纷纷称她为“接触过的老师中最好的一个”

但是在2010~2011学年末,韦索基的IMPACT评分很低,华盛顿特区因此而开除了她,以及另外IMPACT得分在最低限度之下的205名教师。

华盛顿特区更加注重评估得分,因为这一分数是根据实实在在的数学和阅读成绩计算得出的。华盛顿特区官员承诺,分数可以清楚地说明问题,分数更能体现公平

韦索基当然觉得这些数字极其不公平,她想知道这些分数是怎么得来的。一个优秀的教师怎么会得到如此低的分数呢?增值模型评估的到底是什么?

她所知道的就是,评估模型很复杂。测量特区学生在学业上的进步,然后计算学生的进步或退步在多大程度上归因于他们的老师,这当然不容易。研究人员知道,许多变量,包括学生的社会经济背景、是否存在学习障碍等,都会影响学生的学习成绩。评估算法必须要考虑到这些个人差异,这就是评估模型往往十分复杂的一个原因。

大数据技术算法是什么(你真的了解大数据)(6)

图片来源 / 《放牛班的春天》

另外,试图借助对二三十个学生的考试成绩的分析评估一名教师的教学水平,从统计学上来说是不可靠的,甚至是很可笑的。样本量太小了,一切皆会出错。统计学家需要大量的数据平衡例外和反常情况。

同样重要的是,统计系统需要反馈通路,以保证系统出差错时运行者能觉察到。统计学家会不断用差错训练模型,使之更加智能。

例如:若亚马逊的推荐模型的相关性计算出错,给十几岁的女孩推荐了草坪修剪的工具书,则其网站的点击量必然会发生骤降。为此,亚马逊公司就需要不断调整模型,直到用户相关性推荐的算法运作正常为止。

但是,如果没有错误反馈,大数据模型就会持续输出错误的结果,而没人试图对此加以改进。

在麦斯迈提卡政策研究机构的评分系统给予韦索基和其他205名教师差评之后,华盛顿特区开除了这些教师。但是该评分系统如何知道其决策是否正确呢?无从知道。评分系统确定这些教师是不合格者,那么别人就会认为他们是不合格者。

这凸显了数学杀伤性武器的另一个常见特征,即其结果往往更倾向于惩罚穷人。部分原因是数学模型是被设计来评估数量巨大的人群的。数学杀伤性武器擅长处理巨量数据,而且处理成本很低,这也是它们的优势所在。而富人通常受益于个人投入。

举例来说,高档的律师事务所或者大学预科学校会更依赖推荐和当面交流,而快餐连锁店或者资金短缺的城市公立高中则会更青睐使用大数据评定的评分系统。

也就是说,特权阶级更多地与具体的人打交道,而大众则被机器操控。

没有人能给韦索基解释为什么她得了这么低的分数,这已经足够说明问题了。

算法就像上帝,数学杀伤性武器的裁决就是指令。数学杀伤性武器就像一个黑盒子,其内容物是被严格保护的公司机密。

但维护算法的机密性也有另一个目的:如果被评估的人被蒙在鼓里,他们将不太可能找到系统的漏洞。他们只能努力工作,遵守规则,祈祷模型记录并回报他们的努力。

但是,人们无从了解模型的具体运作方式,这意味着人们很难对模型给出的分数提出质疑或者抗议。

出错的数学模型:

“嘿,你又能怎么样呢?”

大数据技术算法是什么(你真的了解大数据)(7)

图片来源 / 《放牛班的春天》

萨拉·韦索基在麦克法兰中学任教的最后一学年,在开学之前,她看到她即将迎来的五年级新生在四年级期末考试中取得了惊人的好成绩。但是,开学后,她发现很多学生连简单的句子都读不好。

很久之后,《华盛顿邮报》和《今日美国》的调查揭示,该学区41所学校的标准化测试试卷有大量涂擦痕迹。大范围纠正答案表明作弊的可能性很大,部分学校有多达70%的考场涉嫌集体作弊

前面我们知道,因为这个IMPACT的教师评估工具,如果学生考试成绩不好,教师就会面临失业风险。与此同时,如果他们的学生的表现好于其他学校的学生的话,该学校的教师和校领导将可以得到高达8000美元的年终奖金

在了解了这些强有力的激励政策的存在以及试卷被大量涂改、出现反常高分的事实之后,你就有理由怀疑四年级教师出于害怕或是贪婪修改过学生的试卷。

可以想见,如果萨拉·韦索基班级的五年级新生其上一学年的高分期末成绩是造假的,那么系统因此而判断韦索基是个“坏教师”的结果是不准确的。

但是,你不能状告一个数学杀伤性武器。这也是我们说数学杀伤性武器具有极为可怕的破坏力的原因之一。模型不会倾听,也不会屈服,对诱惑、威胁和哄骗以及逻辑通通充耳不闻,即使被评估者有充足的理由怀疑得出结论的数据被污染。

没错,如果自动化系统出现过于明显的错误或者整体性错误,程序师的确会回头修改算法。但多数情况下,程序的裁决不容置疑,而操作程序的人只能耸耸肩,好像在说:“嘿,你又能怎么样呢?”

萨拉·韦索基在拿到评分结果后没几天就被解雇了。好在,很多人包括校长都担保她是个好老师,她很快在北弗吉尼亚富人区的一个学校入了职。

换句话说,由于一个正当性与准确性都极为可疑的模型,穷学校失去了一个好老师,而不会根据学生考试成绩开除教师的富学校得到了一个好老师。

弱势群体:

大数据下的恶性循环

大数据技术算法是什么(你真的了解大数据)(8)

图片来源 / 图虫

房地产危机发生之后,我意识到,数学杀伤性武器的应用领域已经拓展到银行业,并对整体经济造成了危害。

如今,不严谨的数学模型掌控着广告业、监狱等领域的经济。这些数学毁灭武器和上述的增值模型有很多相同特点:不透明,不被质疑,解释不通,这些模型按一定规模分类,定位或者“最大化利用”数百万人。

大多数数学毁灭武器把运算结果和实际情况混淆,导致恶性循环。

例如:对于许多借助数学杀伤性武器运营业务的公司来说,钞票的涌入似乎证明模型奏效了。当公司构建模型寻找潜在客户或者操控绝望的借款人时,越来越多的盈利似乎表明它们走对路了。

但现在的问题是,利润变成了真理的象征。认为赚钱就是真理,这就是危险的混淆。

这种混淆的出现是因为数据科学家经常忽视交易接收端的民众。数学杀伤性武器必然会出现偏差,在一段时间内会把部分人群归错类,剥夺他们找到工作或者买房的机会。

但是一般来说,数学模型操作者不会思考这些可能的错误。他们看重的反馈是金钱,这也是他们的根本动机。

那么受害者呢?

数据科学家也许会说,没有数学模型是完美的,那些受害者是附带损失。像萨拉·韦索基这样的人常常会被他们认为没有价值,不值得惋惜。

他们也许会说,别管这些人,去看那些从搜索引擎的推荐中获得有益建议的人,或是在音乐推荐平台上找到自己喜爱的音乐的人,或者那些在领英上找到理想工作的人,还有在婚恋交友网站上找到爱情的人。多想想算法实现的这些令人惊讶的成就,忽略那些不完美。

然而,事实真的如此吗?

大数据技术算法是什么(你真的了解大数据)(9)

大数据技术算法是什么(你真的了解大数据)(10)

赠书福利

我们生活在一个依赖“算法”的时代,它对我们生活的影响越来越大。从理论上来说,这一模型应该让社会更加公平,每一个人的衡量标准都是一样的,偏见是不存在的。

但是,正如数据科学家凯西•奥尼尔书里所揭示的那样,事实并非如此。我们今天所使用的这些数学模型是不透明的、未经调节的、极富争议的,有的甚至还是错误的。最糟糕的是,数学模型和大数据算法加剧了偏见与不公。

大数据几乎掌控着我们的生活,我们应该增加对它的了解。本书作者希望让更多的人通过了解大数据、了解算法,反思模型,以及通过政府和相关机构的合理监管,不断改善各类设计评价体系,让更多的人受益,维护社会的公平与民主。

大数据技术算法是什么(你真的了解大数据)(11)

《算法霸权:数学杀伤性武器的威胁》

作者:凯西•奥尼尔(Cathy O'Neil)

译者:马青玲

出版社: 中信出版集团

现在,21君给大家谋福利啦,免费送书!

如何获得?

在本期周末读书下面留言,获得点赞数前3名(点赞数需不少于50)的读者,同时,21君会在前三名以外挑选部分留言走心的读者,也免费赠送《算法霸权:数学杀伤性武器的威胁》一本。

为了给读者提供更多的机会,每四期连续赠书的活动中,同一为读者只能获奖1次(同一微信ID、手机号、地址均视为同一读者)

我们将在明晚的夜读中公布获奖名单哟~获得赠书的小伙伴记得按照时间留下你的地址,逾时不候喔~(所以点赞前3的截止时间是9月30日20:00左右哟~注:准确的时间以21君的截图为准)

大数据技术算法是什么(你真的了解大数据)(12)

21君

大数据技术算法是什么(你真的了解大数据)(13)

小伙伴们,你们有遇到过因为大数据而带来的问题吗?和我们谈谈你的看法吧~

猜您喜欢: