全球人工智能10大超级影响力人物,十大顶级专家全球人工智能技术趋势
全球人工智能10大超级影响力人物,十大顶级专家全球人工智能技术趋势Lake等人给出了一个数学框架,一个算法和实现该算法的代码,并且他们的软件可以像人一样学习浏览50种语言的1623种手写字体。他们说“概念被表征为简单的概率程序——即是说,概率生成模型被表征为抽象描述性语言的结构化步骤。”此外,概念可以通过重复部分其它概念或程序而建立。概率方法可以同时处理定义和实例的不精确性。(贝叶斯定理告诉我们如果我们知道各种组成复杂事情的更小部分的可能性的话,应该如何计算复杂事情的可能性。)他们的系统可以学得很快,有时一次,或从几个例子就能像人一样,而且有人一样的精度地学习。这种能力与其他依据海量数据集和模拟神经网络等具有竞争力的方法有着戏剧性的差距,这些都是新闻。你可能不愿相信!但是人工智能去年因为《贝叶斯程序学习》(Science,Lake,Salakhutdinov,Tenenbaum)的发展而更进一步。这是重大新闻,因为我已经听到“很难实现人工智能”有数十年了
新智元原创1
来源:Edge
译者:张巨岩 王婉婷
2015 年发生了机器学习的大事件?这背后折射出什么技术趋势?Edge 从全球 198 个顶尖专家中梳理了科技和技术大事件,新智元从中选择了关于人工智能的部分。其中有诺奖得主John C. Mather、MIT名誉机器人学教授Rodney A. Brooks、凯文凯利等。
贝叶斯程序学习
John C. Mather
诺奖得主,天体物理学家,因其在宇宙背景探测卫星(COBE)方面的工作与George Smoot获得了物理学诺贝尔将。他的工作帮助补充了宇宙大爆炸理论。Mather博士是NASA哥达德太空飞行中心的高级天体物理学家。
你可能不愿相信!但是人工智能去年因为《贝叶斯程序学习》(Science,Lake,Salakhutdinov,Tenenbaum)的发展而更进一步。这是重大新闻,因为我已经听到“很难实现人工智能”有数十年了,而且最成功的方法都使用了暴力解决。基于事物和语言符号与逻辑理解的方法一直很难取得进步。挑战在于发明代表复杂信息的电脑语言,接着让机器理解来自示例和证据中的信息。
Lake等人给出了一个数学框架,一个算法和实现该算法的代码,并且他们的软件可以像人一样学习浏览50种语言的1623种手写字体。他们说“概念被表征为简单的概率程序——即是说,概率生成模型被表征为抽象描述性语言的结构化步骤。”此外,概念可以通过重复部分其它概念或程序而建立。概率方法可以同时处理定义和实例的不精确性。(贝叶斯定理告诉我们如果我们知道各种组成复杂事情的更小部分的可能性的话,应该如何计算复杂事情的可能性。)他们的系统可以学得很快,有时一次,或从几个例子就能像人一样,而且有人一样的精度地学习。这种能力与其他依据海量数据集和模拟神经网络等具有竞争力的方法有着戏剧性的差距,这些都是新闻。
所以现在又产生了很多新问题:这个方法有多么通用?人们为了让其有用要赋予它怎样的结构?这个算法最终真的会很优越吗?这是生物智能的工作机制吗?我们如何分辨?这种电脑系统可以成长的足够强大来理解人类日常很重要的概念吗?第一种实际应用会在哪?
这是一个长期项目,没有任何明显限制会阻碍其发展。这种方法能否足以有效,以至于它并不需要一个超级厉害的超级计算机来实现,或者这种方法至少代表了人工智能?毕竟,昆虫用其微小的大脑做的非常好。更一般地,我们何时能实现多人交谈的速记、即时机器语言翻译、场景识别、面部识别、自动驾驶汽车,自动导向的无人机安全递送包裹、机器理解物理和工程、机器对生物概念的理解还有机器阅读国会图书馆藏书并在哲学或历史层面讨论其概念?我的数字助理何时能真正明白我想做的事,或告诉我应该怎么做?这是智能火星车寻找火星生命迹象的方式吗?军事进攻和防守会怎么样?这样的系统怎么实现Asimov的三大机器人定理,以保护人类免受机器人攻击?你如何知道是否应该相信你的机器人?人们何时会被淘汰?
我确信很多人已经开始致力于这样的问题的研究。我看到了很多负面影响,但对于这些负面作用的改进工作也推进得很快。我既激动又惊恐。
人工智能
Rodney A. Brooks
机器学家,MIT名誉机器人学教授,机器人企业家。是MIT计算机科学和人工智能实验室的名誉教授,也是Rethink Robotics的创始人、主席和CTO。在电脑视觉。人工智能、机器人学和人工生命方面具有著作。
今年关于人工智能有很多非常不错的新闻故事。很多故事涉及了来自于非该领域的杰出科学家和工程师的顾虑,这些顾虑几乎是关于超级人工智能觉醒但没有人类伦理概念的危害,这样的危害对于人类是一种灾难。一些其他的顾虑是该领域的人们担忧让AI做军事战术决定会带来危险,还有一些来自各个汽车厂商,他们看到了实现自主驾驶汽车的紧迫性。还有一些人来自哲学领域(业余和专业的),他们担心自驾汽车将不得不做出生死选择。
我自己对这些话题的观点与普遍说法相反,而且我认为每个人都想的太远。Arthur C. Clarke的第三定律是,任何足够先进的技术都与魔法无异。所有这些新闻报道,和那些有此观点的专家,在我看来,要远远超过目前人工智能技术的状态,他们谈论的是一个具有魔力的未来并且这种未来很容易实现人的欲望,或恐惧。
2015年也出现了大量人工智能合乎情理的新闻,它们大部分围绕深度学习算法的惊艳表现,80年代中期的反向传播想法,现在通过更好的数学被扩展到远远超过三层的网络中,这些能够实现,离不开美国西海岸科技巨头庞大的云计算资源,也离不开在那些云计算中巧妙利用的GPU。
深度学习最实际效果是,语言理解系统比两三年前明显好很多,促成了网上、智能手机和家庭设备上新服务的出现。我们现在可以很容易地与它们交谈并让它们理解我们。五年前的语音交互劣势完全消失了。
我相信,深度学习的成功导致许多人产生错误的结论。当一个人展示了自己在某些任务中特定的表现时,例如,翻译外语,那么我们就能大致了解要如何从这个人的表现中概括出他的能力。例如,我们知道,这个人可以理解语言,并能回答哪些人在听到一个孩子死于恐怖袭击的故事后会悲伤,哪些人会哀悼一个月,哪些人认为他们已经得手。但是,翻译程序很可能无法理解得这么深。人们可以从人的表现中归纳出他的能力,但这不能应用在人工智能程序上。
在今年年底,我们已经开始看到一些新闻在反对人工智能某些狭小领域的成功。我乐于见到这些新闻,因为它们将我带回现实,去考虑我们未来与AI的关系。而且我们已经开始看到两类故事。
第一类故事是关于科学,有许多研究人员已经指出,要找到能够模仿人类和动物广泛能力的算法,还有很多科学方面的工作要完成。深度学习本身不会解决许多对于通用人工智能来说很重要的学习问题,例如,空间或演绎推理能力。此外,我们看到的所有AI突破是多年的酝酿,而我们并没有科学依据去期待看到,突然的,持续的AI系列的觉醒,显然有这种想法的年轻的研究人员没有经历过1950年代,1960年代,和1980年的同样的预测热潮。
第二类故事是关于自动驾驶汽车和其他汽车的驾驶程序如何进行交互。当大型运动的事物要进入人类生活时,普及速度会明显变慢,例如网页浏览器中的Java Script。对于自主驾驶汽车不久将出现在公共道路上这一观点有些人天真地表示支持。现实情况是,这其中存在致命事故(即使是由非常聪明的人开发的东西,有时也会让事情变得糟糕),这样的事件会引起人们极度的谨慎,特别是当得知了全球范围内由人类引起的汽车致死案件有超过3000例时。但是,最近的新闻报道都记录到自动驾驶汽车的测试事故率很高。到目前为止,所有的都是非典型事故,而且所有都可归因于其它司机,即人的错误。汽车驾驶得完美,据报道,并汽车没有像所有人类一样违反法律,所以这是人类的错误。当你争辩说,是那些讨厌的人没有开发好技术时,你已经失去了论据。在自动驾驶车被放到普通民众在行驶的车道之前,还有很多工作要做,无论这些技术对于其开发工程师和风险资本家来说多么有价值。
从2014年到15年过度炒作的AI终于得到了一点阻力。这还会让很多愤怒的忠实信徒尖叫,但最终这个泡沫会逐渐成为过去。同时,我们将在我们的生活中逐渐看到更多AI更有效的利用方式,但是这将是缓慢而稳定的,并非爆发式的,而且也不存在生存危机。
可微编程(Differentiable Programming)
David Dalrymple
是MIT媒体实验室的研究助理,在这之前是Twitter的高级软件工程师。从马利兰大学毕业,拿到了数学和计算机学士学位,在构象计算、3D设计等方面均有涉猎。
在过去的几年里,人工智能存在已久的无法解决的很多经典挑战,在几乎没有告知的情况下,用一种AI纯粹主义者鄙视的方法(因为其有“统计”的感觉)解决了:这个方法的本质是从海量数据中学习概率分布,而不是研究人类解决问题的能力,接着试图将这种能力编码成可执行的形式。该技术解决的高难任务范围很广,从物体分类和语音识别,到为图片生成标题和合成某艺术家风格的图片——甚至还能指导机器人完成它们从未在代码中编写的任务。
这个最新的研究方法,最初的名字是“神经网络”,现在被命名为“深度学习”来强调其神经网络数量方面的进步。它最近的成功归功于大型数据集和更强大的计算系统,或者是大型科技公司突然对该领域产生兴趣。这些越来越多的资源确实是这些技术快速进步的关键部分,但是大公司一直在向众多机器学习方法中投入资源,但只在深度学习中看到了如此难以置信的进步;很多其他的方法也有改善,但改进程度远远不及深度学习。
所以让深度学习与其他方法区分的关键是什么,为什么它能够解决人类没办法编写出解决方案的问题?第一个关键点是,来源于早期神经网络,一个久远的算法,被一次又一次的重新发现,名字为“反向传播”。它真的只是链式规则——一个简单的微积分技巧——用一种很优雅的方式被应用。它是对连续数学和离散数学的深度整合,从而让复杂的潜在解决方案集合通过向量微积分被优化。
关键是要将潜在解决方案模板作为有向图来规划(例如,从一幅图像中到一个生成的标题,之间有很多节点)。反向遍历这个图让该算法自动计算出一个“成分向量(gradient vector)”,这为搜索越来越好的解决方案提供了方向。你不能不浏览大部分现代深度学习技巧来观察其与传统神经网络的相似性,但是在这背后,这种反向传播算法是古老框架和新框架的重要部分。
但是原始使用反向传播的神经网络远远不如新深度学习技术,即使让其使用今天的硬件和数据集。另一个在每个现代框架都存在的关键部分是另一个具有迷惑性的简单想法:网络的组件可以同时在多个地方使用。网络被优化后,每个组件的每个拷贝被迫变得相同(这个想法被称为“权重捆绑(weight tying)”)。这对权重相联系(weight-tied)的组件提出了新要求:它们必须学着一次在许多地方变得有用,而且不会被特化到某个特定位置。权重联系(weight tying)促使网络学习更通用的函数,因为一个词可能出现在某块文本的任何区域中,或者一个物理物体有可能出现在任何图片部分中。
将一个通用的组件放在网络很多位置中类似于在程序中编写一个函数,并在多处调出该函数——这是在计算机科学和函数式编程中很多不同领域的本质概念。这实际上不仅仅是个类比:权重相联系组件实际上在编程中与可复用函数(reusable function)概念相同。而且它可以更深!过去几年里很多最成功的框架重复使用组件的模式与由函数式编程中常见的“高阶函数”生成的模式相同。这暗示了我们可以从函数式编程的其他著名操作函数中汲取好想法。
探索由深度学习训练出的功能结构(functional program)的最自然的背景是一个可以直接在函数式编程上运行反向传播的新语言。结果证明,在实现方法的细节中体现出来,函数式编程实际上可以编译成一个类似于反向传播所需要的计算图像。图像中的个体组件也要被微分,但是Grefenstette等人最近发表了一些简单数据结构(栈,队和双端队列)的微分的构建,这表明了更多的可微分的实现方法可能只是更高深的数学而已。在这个领域的更多的工作将会打开新的编程形式——可微编程(Differentiable Programming)。用这样的语言写一段程序就像画了一个函数结构的轮廓,把细节留给了优化器;语言将会根据整个程序使用反向传播自动学习细节——就像在深度学习中优化权重一样,但是用函数式编程作为表征权重联系的更通用的形式。
深度学习可能看起来像另一个会过气的时尚,就像“专家系统”或者“大数据”一样。但是它是依据两个久远的想法(反向传播和权重联系),并且虽然可微编程是非常新的概念,它实际是这些永恒想法的扩展,并且技术词语穿梭于时尚中,这些核心概念会继续是AI成功的本质。
数据比算法重要
Alexander Wissner-Gross
科学家、企业家和投资人。他是Gemedy公司(一家前沿智能系统公司)的主席和首席科学家,同时在哈佛的应用计算学、哈佛创新实验室和MIT媒体实验室均有学术职位。
也许今天最重要的新闻是数据集——而非算法——是对人类级别AI发展的关键限制因素。
AI领域黎明阶段,1967年,它的两个创立者预测了解决电脑视觉问题只需要一个夏天。现在,过了几乎半个世纪,机器学习软件终于似乎准备在视觉任务和很多其他挑战中达到人类界别的表现。什么让AI革命等待了这么久?
过去30年里AI被发表的进步似乎给出了一点具有讽刺意味的暗示:也许很多主要的AI突破受到了有限高质量训练集的限制,而非算法方面的进步。例如,在1994年人类级别自动语音识别系统的完成主要依赖于隐马尔可夫模型的一个变体,而隐马尔可夫模型则是在此10年之前发表的,但是使用了华尔街日报的语音和其他当时3年之前的文本。1997年,当IBM的深蓝打败Garry Kasparov成为世界顶级国际象棋大师时,它的核心算法(NegaScout规划算法)已经有14年之久,然而它的核心数据集——70 0000国际象棋特级大师比赛数据集(名字为“The Extended Book”)——只有6年历史。2005年,谷歌软件完成的阿拉伯转英文翻译和中文转英文翻译是基于当时17年前发表的统计机器翻译算法的一个变体,但是使用了同一年从谷歌网站和新网页中收集到的超过1.8万亿的符号。2011年,IBM的Watson成为世界Jeopardy!冠军,它使用了基于当时20年前公布的多专家决策算法的一个变体,但用了来自维基百科、维基词典、维基语录和前一年更新的古腾堡计划中860万文献资料。2014年,谷歌的GoogLeNet软件在物体识别中有接近人类的表现,它使用了25年前提出的卷积神经网络算法,但却是在当时4年之前ImageNet语料库中大约有150万标记好的图像和1000个物体分类的数据集上训练的。最终2015年,谷歌DeepMind宣布它的软件在29款雅特丽游戏中达到了人类级别的表现,该系统所用的算法是Q学习算法的一个变体,该算法是在23年之前公布的,而这个算法却是在2年之前出现的——超过50款雅特丽游戏街机学习环境数据集上——训练的。
看完这些进步后,关键算法的提出和相应的进步之间的平均时间间隔大概有18年,然而关键数据集的出现和对应的进步之间的时间间隔少于3年,或者说要快6倍,这意味着数据集可能是这些进步的限制因素。特别地,我们可以提出假说:用于AI突破的关键算法通常会滞后,只需要从现存的典籍中挖掘出大型高质量数据集,接着在当时现存硬件中优化即可。当然,研究领域中令人悲伤的常见现象是,注意力、资金和学术进步与算法的进步关联性更高,而非数据集的进步。
如果这个假说正确的话,这会对将来AI的进步有重大暗示。最重要的是,优先挖掘高质量训练集可能对AI突破有指数级的加速,相比纯算法的进步。例如,我们可能已经拥有相应的算法和硬件:这些算法和硬件可以让机器在几年内创作出有创造力的长篇作品,完成标准的人类测试,甚至能通过图灵测试,只要我们用高质量的写作数据集、测试数据集和语言数据集来测试它们。另外,保证AI的友好这样的新问题或许也可以通过对数据集的关注而非对算法的关注来解决——一个潜在更简单的方法。
虽然新算法受到了大量公众的关注(结束了AI寒冬),真正的新闻也许是:优先挖掘新数据集并培养以数据集为中心的研究团体才是延长AI盛夏的本质方法。
识别原理,或者说是智能的定律
Pamela McCorduck
她是几本书的作者或共同作者。她写作过的书有《Machines Who Think》、《The Universal Machine》、《Bounded Rationality》等,她是多家公司和机构在高科技、金融、交通方面的顾问。
对于我来说在2015年中期听到的最重要的新闻是在三个科学家Samuel J. Gershman,Eric J. Horvitz和Joshua Tenenbaum在2015年7月17日的Science上发表了文章《Computational rationality: A converging paradigm for intelligence in brains minds and machines》的时候。他们宣布他们和他们的同事在进行新研究:识别原理,或者说是智能的定律,就像牛顿宣布发现力学定律一样。
在此之前,在公园散步、河流的流动、马车轮子的滚动、炮弹的轨迹和行星轨迹之间的任何共性似乎都是荒诞的。正是牛顿发现了潜在的共性,并从根本上解释了上述的所有现象(等更多现象)。
现在有了相似的人大胆的试图总结智能的规律甚至是本质。“真相从来都是从简单中寻获,而非从多样和混乱的事物中”牛顿说。
对于智能领域的研究而言,我们都是前牛顿。智能的共性被细胞、海豚、植物、鸟类、机器人共享,但人类在此方面,如果不是觉得荒诞的话,至少是远未有所建树的。
然而作为起点,人工智能、认知心理学和神经科学之间丰富的交流就将目标锁定在牛顿的“真相存在于简单中”,那些潜在的规则(也可能是定律)会将这些分离的实体连接在一起。这种研究的正式名字就是计算理性(computational rationality)。我们会问道,它到底是什么?谁,或者说什么,搭载了它?
这种追寻是受到众多科学思想共同认可的观点的启发:智能不来自那些体现智能的介质——生物形式或者电子形式——但却来自于被系统安排的元素之间的交互方式。当系统识别出一个目标,学习(从老师那里、训练集或者一段经历中),接着自动移动,同时根据复杂多变的环境作出调整。另一个看待这个过程的方式是智能实体是网络,通常是智能系统的框架,人类当然在这些最复杂的网络中,而且人类聚集体更是如此。
这三位科学家提出了假设:三个核心想法可以描述智能。第一,智能个体有目标,并形成信仰接着计划动作来尽可能实现这些目标。第二,计算理想情况下最好的选择对于实际世界问题可能是不现实的,但是理性算法可以做到足够接近(以Herbert Simon的术语来讲,是“satisfice(满足目标的最低要求)”),同时包含计算成本。第三,这些算法应该可以根据实体的特定需求进行理性调整,离线情况下通过工程或进化设计,或者在线情况下,通过元推理(meta-reasoning)机制对给定情况选择最好的策略。
虽然刚刚开始,对计算理性的需求已经很大,而且具有普适性。例如,生物学家现在可以与认知轻松地进行交谈,从细胞层面到系统层面。神经生物学家可以识别人类和动物共有的计算策略。树木学家可以展示树木之间如何(缓慢地)沟通来警告附近的敌害,如木甲虫:邻居,快释放毒素。
人类自己在家也是这样,虽然这让我们大部分人花了很多年才知道这些。当然,到这儿就涉及到人工智能,一个关键的说明和启示。
它现在是新闻了;它也一直会是新闻,因为它如此的基础;它的演变启示将帮助我们用全新的方式看待我们的世界和宇宙。至于感受到超级智能威胁的人们,在如此基本的层面上理解智能当然是我们最好的防御方法之一。
万物皆计算
Joscha Bach
认知科学家,供职于MIT媒介实验室、哈佛演化动态实验室,建立了一些决策、感知、归类、以及概念形成方面的计算模型。对于AI哲学和增强人类心理能力特别感兴趣。
这些日子涌现出无数重要的科学新闻,很难说哪一条是其中最重要的。气候模型表明我们已经迈过了转折点,不可逆转地进入了一个全新的、对我们的文明来说相当艰难的时期。Mark Van Raamsdonk拓展了Brian Swingle和Juan Maldacena的成果,展示了在离散张量网络(discrete tensor network)中我们可以彻底抛弃时空的概念,这打开了一扇统一物理学理论的大门。Bruce Conklin、George Church、以及其他研究者为我们带来了CRISPR,这种技术或许会让基因编辑变得简单易用、无处不在。深度学习开始告诉我们互连特征探测器(interconnected feature detectors)的层级结构如何让它能自主地搭建起模型、学习解决问题、以及识别语音、图像、和视频。
也许同样重要的是关注一下我们在何处缺乏进展:社会学没能教我们社会运作的原理,哲学领域看上去已经变得贫瘠荒芜,经济学似乎难以提示我们经济和财务政策,心理学尚未理解我们心灵背后的机制,而神经科学虽然告诉了我们大脑中哪些地方会发生一些事,但大部分时候说不清究竟发生了什么。
我认为,20世纪为理解世界而创造出的最重要的东西,不是实证科学、计算机科学、航天、或者物理学基础理论——而是计算。计算,在核心层面,是非常简单的:每一次观察都会产生一些可分辨的差异。
这些差异,我们称之为信息。如果是对于会改变状态的系统所作的观察,我们就可以描述这些状态的变化。如果我们在这些状态变化中发现了规律性,我们在研究的就是一个计算系统了。如果规律性可以得到完全的描述,我们就把这个系统称为算法。一旦一个系统可以进行特定状态的转换、也可以重新访问之前的状态,它几乎就可以完成任何的计算了。在无限的情况下——也就是说,如果我们不限制它状态转换的次数,也不限制状态信息的存储空间大小——它就成为了一种图灵机,或是一种λ演算(Lambda Calculus),或是波斯特机(Post Machine),或者其它的什么能够模拟所有计算的等价存在(mutually equivalent formalisms)。
计算术语重新表述了“因果(causality)”这种哲学家们争论了几个世纪的概念。因果就是计算系统中从一个状态到下一个状态的转换。计算术语也更新了机械论哲学或是自然主义哲学中“机械主义(mechanism)”的概念。计算主义是新的机械主义,与它的前辈们不同,它并不充满了各种带有误导性的直觉性知识。
计算与数学是不同的。数学是形式语言的领域,大部分都是不可判定的——这与“不可计算”是同义词(因为决策和证明都是计算的同义词),虽然所有我们在数学方面的探索都是可计算的那一些。计算意味着真正地做完所有工作,从一个状态转移到下一个状态。
计算改变了我们对于知识的看法:知识不再是一种“得到辩护的真信念”(justified true belief,译者注:一直以来,西方哲学界对知识的定义包含了三个要素,即所谓的得到辩护的真信念,英文中常被简称为JTB理论。具体来说,某个人A“知道”某个事件B,或说A掌握了关于B的知识,是指:B本身是真的;A相信B是真的;A相信B为真是得到辩护的,或者说有理据、合理的或确证的。这样的情况下,获得的知识是真实可靠的。来自维基百科),而是描述了一种在捕捉可观察对象之间的规律时的局部最小值(local minimum)。知识几乎从来都不是一个静止不变的概念,而是在可能的世界观所组成状态空间中梯度式地变化。我们将不再企图把真实传授给我们的孩子,因为,和我们一样,他们也不会停下改变想法的步伐。我们将会教他们如何有意义地改变他们的想法,如何探索永无止境的灵感王国。
宇宙不是数学的(mathematical),而是计算的(computational),越来越多的物理学家理解了这一点,而物理学也正在忙于寻找一种算法来再现我们的观察。离开了不可计算的、数学的概念(比如连续空间),获得进展成为了可能。气候科学、分子基因学、以及人工智能都是计算科学。社会学、心理学、以及神经科学都不是:它们似乎仍然被机制(呆板的零碎知识)与研究客体表面上的二元对立所困扰。它们正在探寻社会、行为、化学、神经方面的规律,但是在这些方面它们真正应该探寻的是计算规律。
万物皆计算。
合成学习
Kevin Kelly
连线杂志“资深游侠”(Senior Maverick)、联合创始人,“酷工具”网站作者、编辑;出版了《科技想要什么》、《失控:机器、社会与经济的新生物学》、《新经济的新规则》等著作。
今年,DeepMind公司——一家位于伦敦的AI企业——的研究人员报告,他们教会了计算机系统学习如何玩49个简单的视频游戏。他们教它的并不是“怎样玩视频游戏”,而是怎样学习玩游戏。这之间有着深远的区别。玩一款视频游戏,即使是1970年代经典的“乓(Pong)”那么简单的游戏,也需要一系列娴熟的感觉、预测、和认知技巧。十几年前,没有算法能做得到这些;但到今天,这些大部分电脑游戏中内嵌了这种自动玩游戏的代码。当你玩一款2015年的视频游戏时,你通常都需要与天才人类程序员创作的精良的算法相对抗。DeepMind的团队没有编写一系列在游戏内玩游戏的算法,而是编写了在游戏外、像人类一样进行操作玩游戏的算法。这种算法(一种深度神经网络)一开始在游戏中完全无法获胜,也没有任何玩游戏得技巧和策略,随后通过不断得到反馈和改进,它自己组建出了玩这个游戏的代码。
这种学习不能被等价于“人类智能”。它背后的机制与我们学习的方法有极大的不同。这将不会取代人类,也不会称霸世界。然而,这种合成学习的能力将会逐渐增长。大新闻是,学习——我指真正的、非监督式的学习——是可以被合成的。一旦学习可以被合成,它就能被分布到所有寻常可见的设备和功能中。它就能被用于让自动驾驶汽车变得更好,或是让医疗诊断系统随着人们不断的使用而得到提高。
学习,就像其他那些我们原以为只有人类才拥有的能力一样,被证明了是一种机器在得到编程以后也能拥有的东西。学习可以是自动化的。虽然简单的二级学习(学习怎样去学习)曾经是罕见而珍惜的,现在它将会变得随处可见。就像一个世纪以前不眠不休的强大的马达一样,学习将会快速在我们建立的世界中成为常态。所有简单的东西都将会有学习的能力。自动化的合成学习不会让你的烤箱达到和你一样的聪明程度,但它可以做出更好的面包。
不用多久,我们就会觉得让智能物品不够用了。现在我们知道了怎样合成学习,我们将期待所有的一切都能随着不断被人使用而自动地自我改善,就像DeepMind那个学习玩游戏的系统一样。我们未来几年迎来的惊喜将会是在许多我们觉得不可能的领域实现合成学习。
深度学习,语义,以及社会
Steve Omohundro
自我意识系统(Self-Aware Systems)科学家,伊利诺伊大学香槟分校计算机科学教授,复杂系统研究中心(Center for Complex Systems)联合创始人,专注于自然智能和人工智能。
深度学习神经网络是最近最激动人心的科技进展。从技术上来说,它们在许多领域的比赛上都大大胜过它们的竞争对手,包括语音识别、图像识别、读图、语义分析、翻译、药物探索、以及玩视频游戏。这导致了许多大型科技公司都向它投入巨额资金,而深度学习初创企业也有300逾家,获得的投资总额超过15亿美元。
这种网络为我们这个时代最重要的科学问题——我们怎样表征和操作意义(meaning)——带来了启迪。已经有了许多针对意义(meaning)的理论,包括用正式的操作规则将语句、声音、图像投射到逻辑演算(logical calculi)中。例如,Montague语义学试图将自然语言短句投射到有类型λ演算(typed lambda calculus)上。
深度学习网络本身会将输入的词语、声音、图像投射到神经活动向量上。这些向量表征展示了一种有趣的“意义(meaning)的代数”。比如,在使用大量英语语言材料巽寮以后,Mikolov的Word2Vec显示出了这种奇怪的关系:“国王 – 男人 女人 = 女王”。他的神经网络试图从词语所在的语境中预测词语是什么(或是相反)。语境从“国王吃了他的午餐”到“女王吃了她的午餐”的变化和从“男人吃了他的午餐”到“女人吃了她的午餐”是相同的。对许多相似句子进行统计以后,向量从“国王”到“女王”的变化就与从“男人”到“女人”的变化一样了。它也同样做出了从“王子”到“公主”、“英雄(hero)”到“女英雄(heroine)”等相似的匹配。其他的“意义(meaning)等式”包括“巴黎 – 法国 意大利 = 罗马”,“奥巴马 – 美国 俄罗斯 = 普京”,“结构 – 建筑 软件 = 程序员”。通过这种方式,这些系统仅仅从统计训练样例中就发现了重要的关系信息。
这些网络的成功可以被看作是1950年代提出的“分布式语义(distributional semantics)”的胜利。意义(meaning)、关系、以及有效的推理都来自于对于实验语境的统计结果。在视觉领域,Radford、Metz、以及Chintala用来生成图像的深度学习网络中也发现了相似的现象。微笑的女人、减去中性表情的女人、加上中性表情的男人,产生了微笑的男人。戴着眼镜的男人、减去不戴眼镜的男人、加上不戴眼镜的女人,产生了戴眼镜的女人。
深度学习神经网络现在正被应用于数以百计的重要应用中。工业机器人的一项经典挑战就是使用视觉从一堆杂乱摆放的零件中找出并拣起需要的那一个。最近,一家工业机器人公司表示,他们通过使用深度神经网络进行8个小时的训练成功解决了这个问题。一家无人机公司最近也描述了一个深度神经网络,可以在复杂的真实环境中自动操作无人机。为什么这些进展会在近期发生?为了让这些网络能够高效学习,需要大量的训练数据集,通常都是数以百万计的样例。大量数据与大型网络的组合,意味着它们也需要非常多的计算力(computational power)。这些系统现在拥有非常大的影响力,因为互联网能够提供大量训练数据,而配有图像图处理的现代计算机也有足够的用来训练数据的计算力。
这将会发展成什么样?等着这些神经网络很快被应用到你见得到的每一种应用上吧。最近的一些关于深度学习的大学课程贴出了学生的课堂作业。在短短几个月间,就能有数以百计的学生学会运用这种技术来解决各种各样的问题——这些问题在10年前可能会被认为是一个研究课题。我们正处于深度学习网络的某种“寒武纪大爆发”中。全球各地的研究团队正在实验不同的网络大小、架构、以及训练技巧,而其他的一些团队则在搭建能让它们运行得更高效的硬件。
所有这些都是非常激动人心的,但是这也意味着人工智能很有可能会马上对我们的社会产生更巨大的影响。我们必须作出努力,确保这些系统产生的是有益的影响,并创造出有助于整合这些新技术的社会架构。许多在竞赛中获得胜利的网络从输入到输出都是前馈的(feedforward)。它们通常是为输入做分类或是评估(evaluation),不会创造任何新的东西。更新颖的网络是“卷积网络”,可以被“强化学习”所训练。这类系统更擅长于找到出人意料的获得结果的方法。下一代的网络将会为世界创造出模型,并进行详细的推理来选择出最佳的行动。这种系统在设计时必须非常谨慎,以免带来预料不到的恶性结果。我们在选择向这些系统要求什么结果时必须万分小心。如果我们能够获得让这些发展保持在有益的方向上的科学理解和社会意志(social will),那么我们的未来会是非常灿烂的!
为深度学习成像
Andy Clark
爱丁堡大学认知科学家、哲学家,曾任印地安纳大学伯明翰分校认知科学项目主任;Contact合作研究计划创始人之一,该计划旨在探索环境在塑造意识经验(conscious experience)本质的作用;《Supersizing the Mind: Embodiment Action and Cognitive Extension》作者
这个世界正在越来越多地充斥着深度架构——多层人工神经网络,(通过“深度学习”的方法)用来在图像和文字之类的大数据集里发现模式(pattern)。但是,这些深度架构的强力性能和流行程度掩盖了一个主要的问题——知识透明性的问题。这种架构可以学会做出很棒的事情,但是它们没有提供(在不进行进一步努力了解的情况下)它们在做这些事的时候到底根据的是什么知识。
这既让人失望(理论上)又十分危险(实际上)。深度学习以及它提取出的模式现在充斥在我们日常生活的方方面面,从在线搜索和推荐系统,到银行贷款申请、医疗、约会,无所不包。一种对于我们的命运有如此重要影响的系统,应当是尽可能透明的。好消息是,侦测深度学习系统收集并应用了什么知识的新技术正在涌现。
在2015年6月,Alexander Mordvintsev等研究者发布了一篇简短的论文,名为《开端主义:深入神经网络内部(Inceptionism: Going Deeper into Neural Networks)》。“开端主义(inceptionism)”的名字来自于一种架构,这个词很快就出现在几乎每一个技术博客上。他们选择了一个训练完成的网络,它能够分辨出给定的图片里有什么。他们之后又设计了一种自动的方法,让网络能将输入的图片微调、变得更接近它已经归类好的图片类型。这在本质上涉及到了以相反的方向运行网络(因此在各种博客中会频繁提到“networks dreaming”和“reverse hallucination”两个词)。比如,一开始有随机噪音和一种目标分类(target classification),并且限制网络只能参照它之前训练时的那些图片的统计结果,最后将会得到模糊的、几乎是印象派的图像,这个图像代表了这个网络认为这种物体(香蕉,海星,降落伞,或是别的什么东西)应该是什么样子。
也有意料之外的时候。比如,目标“杠铃”,的确让网络产生了两端有杠铃片的东西——但是杠铃边上隐隐约约还连着肌肉发达的手臂。这告诉我们,这个网络还没有能很好地区分核心含义,虽然它已经非常接近了。其中最有趣的是,你可以输入一个真实的图像,在你的多层神经网络中选择一层,要求系统加强它能探测到的一切。这意味着,你可以使用inceptionism来侦测每一层处理发生了什么,并将它可视化。所以,inceptionism是一个用来一层一层查看神经网络中发生了什么的工具。
有许多结果看上去都充满了迷幻的色彩——在某一层重复强化会导致形状不规则的美感,如同某些让人眼花缭乱的艺术图案。这是因为,重复处理过程会导致反馈循环(feedback loops)。这在效果上相当于要求系统强化它在处理图片的某个步骤时“看到”的一切。
所以如果它在一朵云中“看到”了鸟的迹象,或是在一个漩涡中“看到”了脸的迹象,它就会加强这些迹象,深化这种特征或是属性。如果将获得的加强后的图像又输入到网络中,同样的技术就会再次应用其上,进一步强化鸟(或者其他什么东西)的迹象。这个过程的重复会快速地导致图片中某些元素变成我们熟悉的物体的梦幻版本。
如果你还没有见过这些美妙的图片,你可以在网上的“inceptionism gallery”找到它们,甚至是使用DeepDream上的代码自行创作。这类图像自身非常美丽,并且引人深思,而这种技术可能也因此为探索“创造”提供了一种新的工具——更不用说带来关于我们人类创造过程的启示了。但是这并不只是,或者主要是,在玩图像。这种技术正在帮助我们理解这些不透明的多层系统知道什么样的东西:展开它们处理过程,一层一层地了解它们在处理时依赖的是什么。
这是人工大脑的神经成像。
神经网络上膛
Jamshed Bharucha
Cooper Union学院心理学家、荣誉主席,曾在塔夫茨大学担任心理学教授、教务长、高级副主席,也曾在达特茅斯学院担任心理学和脑科学教授。研究关注对于音乐的感受的认知和神经基础,运用感觉实验、神经网络建模、以及fMRI等方法。
神经网络已经复活了。走过了充满争议的60年以后,它只用了短短3年就蔓延到了无数人的日常生活中。
在2015年5月,Sundar Pichai宣布Google将语音识别中的错误率降低到了8%,这一数字在两年前是23%。关键是什么?被冠上了新名字“深度学习”的神经网络。Google表示,在收购了Geoffrey Hinton和他两个学生创立的DNN Research公司以后,仅仅过了6个月,图像识别方面就获得了极大的提升。反向传播回来了——伴随着大数据。它现在突然身价百倍。
这个新闻并不在封面报道上。没有任何科学上的突破,也没有什么新的应用。
为什么这是一个新闻?它的影响规模让人震惊,就像它蔓延的速度一样。从充满噪音、有无限的不同之处的视觉和听觉模式(pattern)中获得意义,一直以来都是人工智能领域被追逐的焦点。原始计算力(raw computing power)已经赶上了数十年前创造出的算法的需求。在短短几年间,这种技术从在实验室中对于过度简单问题(oversimplified problems)的模拟一跃而升,达到了真实世界中作为手机应用程序来识别语音和图像的程度。
在1970年代的自我组织(self-organization)、1980年代的反向传播的开拓性工作以后,神经网络的理论进展大部分时候都十分缓慢。近期达到的转折点,并不是来自于根本上的全新洞见,而是来自于处理速度的提高——这让更大型的神经网络、更大量的数据集、以及更多次的迭代成为可能。
这是神经网络的第二次复活。第一次是Geoffrey Hinton和Yann LeCun发现多层网络能够学习非线性分类的时候。在这个突破之前,Marvin Minsky对于这个领域有了一切的准备,却在他1969年出版的《感觉器(Perceptrons)》中否定了这一点。他在其中证明了Frank Rosenblatt的感觉器不能学习非线性的分类。
Rosenblatt在1950年代发明了感觉器。他的这一成果建立于1940年McCulloch和Pitts(他们展示了模式(pattern)会如何在神经元的网络中得到处理)以及Donald Hebb(他假设了当相连神经元活跃时,它们之间的联系会得到加强)的工作上。感觉器的发明掀起了一股热浪,纽约时报在1958年7月13日对此进行了题为“电子‘大脑’自我学习(Electronic ‘Brain’ Teaches Itself)”的报道。时代杂志引用了Rosenblatt的话,说感觉器“将会随着它获得更多经验而变得更聪明”,又添油加醋道“海军表示,他们将会运用这些原理来建造第一台‘思考的机器’感知器,它将会能够读或写”。
Minsky的批评对于Rosenblatt和神经网络来说是主要的阻力——搞不好也是最致命的。但是,仍有一些人在沉默地坚持着,包括Stephen Grossberg在内。当时的1950年代,他以达特茅斯学院的一名本科生的身份开始致力于研究这些问题。到1970年代,Grossberg发明了一种非监督式、(自我组织(self-organizing))的学习算法,在已取得的类别的稳定性和学习新东西所需的可塑性(plasticity)之间取得了平衡。
Hinton和LeCun解决了Minsky的挑战,再次将神经网络带回到了公众的视野。对于反向传播的兴奋之情让人关注起了Grossberg的模型,还有Fukushima和Kohonen模的型。然而,在1988年,Steven Pinker和Alan Prince对神经网络做了20年前Minsky做过的事,攻击了神经网络在解释语言获得(acquisition of language)方面的价值。神经网络再一次败退。
在Geoffrey Hinton和他的学生们赢得了2012年ImageNet挑战、在图像识别的表现上展现出了极大的提高之后,Google抓住了这个机会,于是神经网络又一次焕发出生机。
对于深度学习的反对已经开始逐渐出现。所有方法都能从强大计算力中受益,传统的符号主义方法也不例外。时间会告诉我们哪一种方法在解决哪些问题上能够盛行。无论如何,2012-2015年将会成为神经网络把人工智能推到我们指尖的时间。
干货下载
1.【华创证券】机械设备:机器人大趋势
2.【东吴证券】大国崛起:中国智造值得中长期布局
3.【广发证券】清洁机器人:旧时王谢堂前燕,飞入寻常百姓家
4.【民生证券】人工智能 适合的应用场景
5.【荐书】The Master Algorithm
如何下载?
关注新智元微信订阅号(AI_era),回复“12月下载”即可获得。