科学大咖讲述脑科学与人工智能(计算机与神经科学)
科学大咖讲述脑科学与人工智能(计算机与神经科学)在下一个层级上,“ 计算恶魔” 或者 叫“ 亚恶魔”(sub-demon)会对数据进行某种或多或少的复杂计算,并将计算结果传递到再下一个层级—“ 认知恶魔(cognitive demon)那里,由“ 认知恶魔”对证据加以权衡。每一个“ 认知恶魔”都会计算出一声尖叫,而最高层级的恶魔—“决策恶魔”(decision demon)会从所有的尖叫中选择出最大声的那一个。最早使用计算机模型来阐释脑运作机制的人之一是数学家奥利弗·塞尔弗里奇(Oliver Selfridge)。他是维纳的学生,与皮茨、麦卡洛克和莱特文也关系密切。1958 年,塞尔弗里奇展示了一个被他称为“ 群魔”(Pandemonium)的分级处理系统,这个系统是在他有关机器模式识别的研究工作的基础上开发出来的。塞尔弗里奇以创建一种简单的单元—“ 数据恶魔”(datademon)为出发点,这些单元可以通过将某一特征(比如一条线)与预
人类对心智和大脑的发掘与人类对自然的理解与征服同样悠久。哺乳动物的神经系统,也许是自然界最强大的器官。它具有约1011个神经元和1015个突触,耗能却仅约20W。某种程度上,人类对于科学和机器的狂热,就是在复制自身的心智。当科学研究进入21世纪,科学家们则试图借助“理性的自负”真正破解大脑与心智之谜:大脑的信息编码与储存,神经元的传导和对于情绪认知的控制,是否可以与计算机科学相联系?古典哲学家认为,人生下来就是一张白纸。那么,人类能否向控制机器一样在这张白纸上肆意涂鸦?科学与伦理从来都是一对双生子,每当科学向前一步,人类对于道德和自我的困惑也向更深层次突破了一层。
英国曼彻斯特大学动物学教授、神经科学家马修·科布的新书《大脑传》就是这样一部作品,它既展示了人类不断破解大脑与神经背后的历程,也展示了科学与人文之间永恒的冲突。当知识的自负使人类不断征服了脑科学的未知领域时,困惑也随之而来——我们是否有资格改造并控制人性?假使我们真正地澄清了自身的心智与知识的迷雾,我们又该期待怎样的未来?
下文经出版社授权,摘编自《大脑传》第十二章。作者在本章中梳理了20世纪60年代以来科学家如何将脑科学运用到计算机科学与人工智能领域。以及科学家对人类心智之谜的困惑所在:假如人脑就是一台计算机,那么人为什么会有这样或那样的价值观,这些价值观又是为何会引领我们塑造了今天的世界?
《大脑传》,[英]马科·修布 著,张今 译,新思文化·中信出版社 2022年3月版。
在计算机时代初期,科学家们对这些新机器与脑之间的相似之处感到无比震撼。受到这种启发,不同的科学家采用了三种不同的方式来使用计算机。有些科学家忽略了生物学,专注于让计算机尽可能更智能,这个领域后来被称为“ 人工智能”(这个概念是约翰·麦卡锡 在1956 年提出的),以各种方式为现代生活做出了积极的贡献(至少目前是这样)。对于理解脑是如何工作的,最富有成效的方法并非来自创造超级智能机器的尝试,而是那些构建脑功能模型的努力,这些研究探索的是模型中神经元之间交互连接的规则。如果你喜欢,可以把这个领域称为“ 神经元代数”(neuronal algebra)。
模拟神经系统的早期尝试出现在 1956 年,当时 IBM(国际商业机器公司)的研究人员检验了赫布的猜想(神经元的组合是脑的基本功能单元)。他们使用的是 IBM 的第一款商用计算机—IBM 701。这是一种真空管计算机,由 11 个大型部件组成,几乎占据了一个房间(总共只售出了 19 台)。这个团队模拟了一个由 512 个神经元组成的网络。尽管这些组件最初并没有连接到一起,但就像赫布提出的那样,它们很快就形成了一些组合,并且自发地以波的形式同步它们的活动。虽然这个非常粗糙的模型存在局限性,但这表明神经系统环路的某些特征源自一些非常基本的规则。
计算机是另一种人脑吗?
最早使用计算机模型来阐释脑运作机制的人之一是数学家奥利弗·塞尔弗里奇(Oliver Selfridge)。他是维纳的学生,与皮茨、麦卡洛克和莱特文也关系密切。1958 年,塞尔弗里奇展示了一个被他称为“ 群魔”(Pandemonium)的分级处理系统,这个系统是在他有关机器模式识别的研究工作的基础上开发出来的。塞尔弗里奇以创建一种简单的单元—“ 数据恶魔”(datademon)为出发点,这些单元可以通过将某一特征(比如一条线)与预先设定的内部模板进行比较来识别环境中的元素。这些“ 数据恶魔”会把它们检测到了什么报告给更高一级的“ 恶魔”—“ 计算恶魔”(computational demon)。对于接下来发生了什么,塞尔弗里奇是这样解释的:
在下一个层级上,“ 计算恶魔” 或者 叫“ 亚恶魔”(sub-demon)会对数据进行某种或多或少的复杂计算,并将计算结果传递到再下一个层级—“ 认知恶魔(cognitive demon)那里,由“ 认知恶魔”对证据加以权衡。每一个“ 认知恶魔”都会计算出一声尖叫,而最高层级的恶魔—“决策恶魔”(decision demon)会从所有的尖叫中选择出最大声的那一个。
这个过程的最终结果是,一个复杂的特征(比如一个字母)会被“ 决策恶魔”识别出来。乍一看,这似乎只是感觉处理层级观的一个电子版本,最早可以追溯到阿尔弗雷德·斯密。但“ 群魔”有自己的独特之处—它可以在整个过程中不断学习。这个程序会持续关注自己对物体的分类准确与否(在最初阶段,这些信息是由人提供的)。通过不断重复运行这个程序,以及这个过程中塞尔弗里奇所谓的对恶魔的“ 自然选择”(如果分类正确,它们就会被保留下来),随着时间的推移,系统会变得越来越准确。它甚至能识别那些并不是设计出来供它识别的东西。根据认知科学家玛格丽特·博登的说法,“ 群魔”的影响是不可估量的—它表明计算机程序可以模拟相当复杂的感觉过程,而且如果它的成功获得适当的反馈,程序的功能还可以随着时间而改变。
与此同时, 另一位美国科学家弗兰克· 罗森布拉特(Frank Rosenblatt)提出了一个稍有不同的模型 — 感知机(Perceptron)。感知机关注的也是模式识别,也使用了灵活层级连接的思想—一种后来被称为“ 连接主义”(connectionism)的方法。罗森布拉特认为,脑和计算机都具备两项功能—决策和控制,无论是在脑还是计算机中,这两项功能都是基于逻辑规则运行的。但脑同时还在执行两项更深层,交互性也更强的功能:对环境的解读和预测。所有这些功能都在罗森布拉特的感知模型中得到了体现,因此他把感知机称为“ 第一台能够产生原创性想法的机器”。
美国科学家弗兰克· 罗森布拉特与感知机(图片来自康奈尔大学官方网站)。
事实上,和之前的“ 群魔”一样,感知机只是学会了识别字母。而且就感知机而言,字母必须要大约半米高才能被识别出来。但感知机与“ 群魔”的关键区别是,感知机无须预设的模板,通过使用并行处理(同时执行不同的计算,就像脑一样)就能做到这一点。这种差别绝非偶然,因为罗森布拉特不仅对开发一项在当时看来令人瞠目结舌的技术感兴趣,对提出理论来解释脑的运作方式同样感兴趣。
媒体很喜欢追捧这样的事。当罗森布拉特的资助方美国海军在 1958 年宣布他的研究成果时,《纽约时报》欢呼道:“ 今天,美国海军披露了电子计算机的雏形,在未来,它有望能够走路、说话、看见、书写、复制自己,并意识到自身的存在。” 这些话并非出自某位过度兴奋的记者之口,而是罗森布拉特本人的原话。关于罗森布拉特,一位科学家后来回忆说:“ 他是那种新闻工作者梦想报道的人,就像有魔力一样。按照他的说法,感知机能做出各种各样了不得的事情。也许确实如此,但他的工作证明不了这一点。”
尽管罗森布拉特在媒体上进行了精心的宣传,但他对感知机的真正意义却保持了相对冷静的态度。在他 1961 年出版的著作《神经动力学原理》(Principles of Neurodynamics)中,罗森布拉特写道:
感知机不是任何实际神经系统的近似仿品。它们是简化的网络,能帮助我们研究神经网络及其所在环境的组织方式与这些网络的“ 心理”表现之间的关系法则。感知机实际上可能对应于生物系统外延网络的某些部分……更有可能的是,它们是对中枢神经系统的极端简化,其中一些特征被放大了,而另一些则被缩小了。
到了20 世纪60 年代中期,专家们开始承认,即使是感知机,也并不像人们吹捧的那样好。1969 年,人工智能先驱马文·明斯基(Marvin Minsky)和同事西摩·佩珀特(Seymour Papert)出版了一本书,对感知机模型给予了非常负面的评价。明斯基和佩珀特对感知机的能力进行了数学分析,认为无论对于人工智能还是对于理解脑来说,这种方法都是死胡同,因为感知机的构造方式使它不可能在内部表征它正在学习的东西。一方面由于这类批评的出现,一方面由于这些模型进展放缓,美国对连接主义方法的资助逐渐枯竭,这个领域也随之萎缩。罗森布拉特随后开始研究学习转移现象,这个领域的研究将在恐暗肽理论出现时达到高潮。1971 年 7 月 11 日,在他 43 岁生日那一天,罗森布拉特在一次船只事故中丧生。
尽管“ 群魔”和感知机未能提供可以应用到生物模式识别系统上的见解,但这两个程序改变了研究者对脑的看法—它们表明,任何对感知(无论是人的感知还是机器的感知)的有效描述,都必须引入关键的可塑性要素。因此,它们与基于机械或者压强隐喻的旧模型完全不同。此外,在这些连接主义程序的结构与休伯尔和维泽尔发现的简单特征探测器的层级结构之间,存在着一种诱人的相似性,巴洛 1972 年提出的关于“ 红衣主教细胞” 的想法显然受到了这种相似性的影响。对一些人来说,这意味着这些新模型并不仅仅是用隐喻来解释脑是如何工作的。它们实际上揭示了真正的机制。
基因、理性与人脑的机制
随着学界对“ 群魔”和感知机的兴趣逐渐消退,大卫·马尔开发了一种不同的脑功能计算模型。马尔此时已经在剑桥大学闯出了名声。在那里,他发表了一系列论文,宣称已经发现了脑是如何工作的。但他很快就否定了这些数学模型,认为它们只是“ 一种简单的组合技巧”,因为他意识到研究人员们需要一种完全不同的方法。1973 年,马尔搬到了波士顿的麻省理工学院,与明斯基一起工作。他的目标是创造一台能看见东西的机器,进而理解人的视觉是如何工作的。4 年后,马尔患上了白血病,因此迅速开始撰写一本名为《视觉》(Vision)的书,总结他的见解。他在书的前言中写道:“ 因为某些事情,我不得不比原计划提前几年开始写这本书。” 马尔于 1980 年去世,年仅 35 岁。1982 年,《视觉》出版上市。
也许正是意识到了死亡将近,马尔的这部著作展现出了更为宏大的视角,而没有限于一个视觉模型的细节。他把他有关脑运作机制的观点放到了一个更广泛的伦理背景下,讲述了我们是如何进化的,以及我们对自然选择的影响抱有的深刻态度源自何处:
说脑是一台计算机,这没错,但又容易引起误解。它确实是一台高度专业化的信息处理设备—或者更确切地说, 是许多信息处理设备的集合。将我们的脑视为信息处理设备,这并不是在贬低或者否定人的价值观。这么看待人脑反而更能体现人的价值观,并可能最终帮助我们从信息处理的视角理解人的价值观究竟是什么,人为什么有这样或那样的价值观,以及这些价值观是如何整合进基因赋予我们的社会习俗和社会组织的。
电影《攻壳机动队》中的脑机接口。
马尔的这部著作中使用了很多数学方法,因此有人说引用他这本书的人比理解他这本书的人更多。这句俏皮话说明,马尔最大的贡献不在于其视觉计算模型的精确细节,而是他的思想方法。即使是马尔最热情的支持者也承认,在今天看来,他的这本书的主要价值是其历史意义。
与巴洛不同,马尔认为单个神经元的活动不足以解释环路是如何发挥其功能的,也无法解释感知是如何运作的。他曾用一种略带讽刺的口吻来为自己的新方法辩护:
试图仅仅通过研究神经元来理解感知,就像试图仅仅通过研究羽毛来理解鸟类的飞行一样:根本就不可能。要研究鸟类是如何飞行的,我们必须先了解空气动力学,只有这样,羽毛的结构和鸟类翅膀的不同形状才变得有意义。
要理解某个特定的功能在脑(或计算机)中是如何执行的, 马尔的方法是分三步走。首先,待解决的问题必须以遵循逻辑的方式加以陈述,这样的理论方法限定了如何通过实验来探索问题或者对问题进行建模。其次,必须确定系统输入和输出的表征方式,还需要确定将系统从一种状态转换到另一种状态的算法的描述。最后,必须解释第二层在物理上(在脑活动这个问题上,就是在神经系统中)是如何实现的。马尔的观点是,在创造一个可以看见东西的网络(无论是一台机器还是一个脑)这个问题上, 面临的约束条件在所有情况下基本上都是一样的,因此应该可以使用类似的算法,即使这些算法在生物体中与在计算机中的运行方式可能大为不同。他认为,通过解决机器的视觉问题,我们可以更好地理解我们脑中的视觉。
在脑如何识别简单物体(比如一条边)这个问题上,马尔的想法是以休伯尔和维泽尔的发现为基础的。但与“ 群魔”和感知机不同,他的方法引入了更丰富的计算方案,而不只是一个把线段的各个点叠加在一起,然后与模板对比的层级结构。正如马尔 1976 年在冷泉港的一次会议上所说的那样,“ 这个轮廓不是被探测到的,而是被构建出来的”。这种观点可以追溯到赫尔姆霍兹,它强调了脑并非只是一个接收感官信息的被动观察者。感知还涉及对这些刺激的组合和解释。这种方法对于任何视觉模型来说都是不可或缺的,因为如果机器(或者视网膜)只是在图像的每一个点上识别光度值,那么什么也不会发生。这些是照相机做的事情,而照相机是无法看见东西的。
虽然有这些深刻的见解,但马尔的机器方法并没有改变我们对机器视觉的理解,也没有改变我们对脑如何看东西的理解。就我们目前对视觉皮层中具体过程的理解而言,同样的算法还没有在生物体和计算机中被发现。同样麻烦的是,马尔用来理解视觉的方法无法被扩展到脑功能的其他领域去使用。
视觉与感知
尽管我们在计算机面部识别和其他人工场景分析方法上已经取得了巨大的进步,但机器视觉仍然远远落后于我们脑中的视觉。同样地,我们对“ 看见”东西时究竟发生了什么仍然知之甚少。每个人都同意,在我们的脑中一定有某种对场景的符号表征,但没有人太清楚这究竟是如何发生的。在《视觉》出版 30 周年之际,马尔的学生肯特·史蒂文斯回顾了马尔的贡献并得出结论说,虽然符号表征在视觉中的重要性毋庸置疑,但“ 我们仍然无法完全理解符号系统在生物视觉中的地位”。
在这个问题上,对猴子脑中面部识别细胞的研究或许已经能为我们提供一些见解。2017 年,加州理工学院的两名研究者常乐和曹颖向猕猴展示了一系列面孔,并研究了猴子脑中一系列细胞的单细胞反应。这些细胞总共能识别面部 50 个维度的信息(眼间距和发际线等),但每个面部识别细胞只对其中一个维度感兴趣。为了说明这些信息是如何结合起来并准确地表征整个面部的,常乐和曹颖记录了 200 个这类细胞对一系列照片的反应, 然后用计算机根据这些神经元的电活动就精确地重建出了原始的图像。有趣的是,他们并没有发现猕猴脑中存在“ 詹妮弗·安妮斯顿细胞”的证据,或者用他们的话来说,“ 不存在负责识别特定个体身份的探测细胞”。但另一个研究小组的一项研究表明,猴子的颞叶中似乎有一个区域参与了识别“ 脸熟”的猴子的面孔的过程。
曹颖推特的个人简介很简短:“ 皮层几何学家”。曹颖猜测,她所揭示的面孔检测过程中的特征提取可能是一个发生在视觉皮层的通用过程—“ 我们认为,整个下颞叶皮层可能使用了相同的方式来把各个连接的区域组织成网络,并且在所有类型的对象识别中使用了相同的编码方式。” 她目前试图解决的问题是理解视错觉(比如著名的花瓶 / 人脸错觉)的神经基础。正如她指出的那样,在 10 年前,没有人知道该从哪里下手研究这个问题。但现在我们知道了。
至于人类是如何识别面孔的—包括我们祖母的脸—我们似乎很可能像猕猴那样,脑中存在某种分散式分布的面孔识别网络。你脑中的这种算法不同于手机的人脸识别算法或者安保系统筛选犯罪嫌疑人照片的算法,后者完全是为了辨识某些特征定制的,依赖于眼间距、脸形等生物计量特征。生物视觉中的面孔识别要复杂和抽象得多,而且最终是以休伯尔和维泽尔发现的各种元素(线条、斑点等等),而不是以面部每个细节的解剖结构以及彼此之间的关系为基础的。这些元素以某种方式被组织成了一个复杂的层级系统(就像马尔想象的那样),而且这个系统同样适用于环境中的其他特征,而不仅仅是面孔。
在哈佛大学最近一项结果令人不安但又让人惊叹的研究中, 研究人员在猴子身上融合使用了计算和电生理的方法,研究结果揭示了这些层级细胞可能对什么刺激感兴趣。这些科学家把图像投射到屏幕上,并记录清醒猴子的下颞叶皮层的单个细胞的活动。这倒没什么稀奇的。但这些图像并不是静态的,而是合成的,在不断变化和流动。图像是由一种名为 XDREAM 的算法“ 进化”出来的,这种算法会不断调整刺激,以获得细胞最大程度的反应。这种方法并非原创,神经科学家查尔斯·康纳(Charles Connor)和同事在 10 年前就曾使用过,但这项新研究得出了令人毛骨悚然的结果。在经过一百多次迭代后,图像从一片灰白色的平板“ 进化”成了梦境一般的超现实主义影像:猴子面部的各个部分被扭曲杂糅到了一起,这里可以辨认出来是眼睛,那里是无形且模糊的身体的某个部分,不同部位的朝向也各不相同。
神经科学家查尔斯·康纳(图片来自约翰·霍普金斯大学官网)。
这表明在猴脑中,这些细胞真正感兴趣的是这类奇怪的图像,而不是肖像。如果在有“ 詹妮弗·安妮斯顿细胞”的人的脑中也会出现类似的现象,那就意味着这些细胞其实并没有被设定成对任何照片上的影像做出反应—细胞之所以会有反应,仅仅是因为照片跟细胞真正响应的影像非常相似。与此同时,麻省理工学院的研究人员也发表了类似的结果,不过结果不像哈佛大学科学家的结果那么离奇。他们在猴子视觉皮层中一个与面孔识别无关的区域的细胞上开展了相同的实验。研究发现,这些细胞似乎只会被某些带有一定生物特征的奇怪的几何图像激活,这些图像就像人在出现严重偏头痛时产生的那类幻象。
上述发现很容易诱使我们想象,这些奇怪的混合形状才是一只猴子看着另一只猴子时实际上看到的东西。但是请记住,有数百万个细胞参与了对面孔的感知,而且最重要的是,脑中并没有什么微型小猴在审视这些单个细胞的输出。以某种方式产生感知的是整个系统,不是某个细胞,甚至不是一小群细胞。
最近,在小鼠上开展的研究为理解视觉感知的神经基础提供了一条有力的途径。2019 年夏天,利用一种复杂的光遗传学技术,哥伦比亚大学拉斐尔·尤斯特的研究小组和斯坦福大学卡尔·戴瑟罗斯的研究小组在相隔几周的时间里先后发表论文,证明可以重现小鼠在视觉感知过程中脑的活动模式。 在这两项研究中,小鼠都事先经过训练,当它们看到一种条纹图案时就会舔水。研究人员发现,如果用光遗传学方法激活这些模式,即使没有视觉刺激,小鼠也会舔水。两个小组使用了略微不同的技术:戴瑟罗斯的小组精确地刺激了十几个神经元,使其产生相应的活动模式;尤斯特的小组则专注于两个连接紧密的神经元,这两个神经元能够激活脑视觉系统中的一组神经元,从而产生相应的活动模式。尽管这些研究令人印象深刻,但我们仍然无法据此认定这些活动模式就是小鼠的视觉感知,或者就是视觉感知发生— 通过其他神经元组合的活动—的必要先决条件。虽然计算科学家和神经生物学家已经付出了数十年的努力,对于当我们看见东西时究竟发生了什么这个问题,我们的理解仍然很模糊。
作者|马修·科布
编辑|朱天元
校对|李铭