视觉slam深度学习（DeepMind提出SCAN仅需五对样本）

小君 2023-06-12 06:47:39 117

视觉slam深度学习（DeepMind提出SCAN仅需五对样本）图：SCAN模型依据物体的个体区分、颜色和旋转、墙壁颜色、地板颜色等可表述的视觉特征等来学习，去表示视觉场景。SCAN模型在视觉上与婴儿在出生前几个月看到的世界类似。这段时期，婴儿的视线仍无法集中在半米以外的东西上，他们成天都在观察各种映入眼帘、移动和旋转的物体。为了模拟这个过程，他们将SCAN模型放在DeepMind实验室的模拟3D世界中。在那儿，模型就像是婴儿躺在婴儿床上一样，不能移动，但可以转动头部，并观察在各种不同颜色的背景下可能呈现在他面前的物体，例如帽子、行李箱或冰棍。和婴儿的视觉系统类似，这个模型会学习视觉世界的基本结构以及如何用可表述的视觉特征来表示物体。例如，当看到苹果时，模型将会学习根据其颜色、形状、大小、位置或明暗来表示它组合的思想是诸如创造力、想象力和语言表达等能力的核心。脑海中只要有少量熟悉的概念性模块，我们就能创造出大量新东西。我们将概念从具体到一般进行归类，形

雷锋网 AI科技评论按：DeepMind实验室发布名为符号-概念联合网络（Symbol-Concept Association Network，SCAN）的新型神经网络模型，可以让计算机模仿人类视觉和词汇获取的方法，通过重组学到的概念，来想象新的概念。

以下为雷锋网 AI科技评论根据DeepMind实验室发布内容编译。

大约二千五百年前，一个美索不达米亚商人收集了一些粘土、木材和芦苇，随着时间的推移，通过这些材料，他们发明了算盘，能够在商品交易过程中记录货物数量、理清资产，这带动了经济的蓬勃发展，也改变了人类社会。

那一刻的灵感也照亮了人类另一个惊人的能力：重组现有的概念，想象出全新的东西。不具名的的发明家思考他们想要解决的问题，建造奇妙的装置，收集原材料来创造新的东西。粘土能塑造成算盘的框架，棍子能用来把算珠串起来，芦苇可以编成算珠。算盘的每个组成部分都很常见，也各有区别，把他们用这种新的方式组合在一起，就出现了革命性的创造。

组合的思想是诸如创造力、想象力和语言表达等能力的核心。脑海中只要有少量熟悉的概念性模块，我们就能创造出大量新东西。我们将概念从具体到一般进行归类，形成不同层次，然后用新的方式重组层次里的不同部分。这种方式对我们来说很自然，但要将其应用于AI研究还是个挑战。

在DeepMind的新论文中，提出了一种新的理论性方法来解决这个问题。此外，他们还展示了一种称为符号-概念联合网络（Symbol-Concept Association Network，SCAN）的新型神经网络模型，这是首次通过模仿人类视觉和词汇获取的方法，学习自下而上的视觉概念层次，从而能够通过语言指令想象出全新的概念。

他们的方法可以总结为以下几点：

SCAN模型在视觉上与婴儿在出生前几个月看到的世界类似。这段时期，婴儿的视线仍无法集中在半米以外的东西上，他们成天都在观察各种映入眼帘、移动和旋转的物体。为了模拟这个过程，他们将SCAN模型放在DeepMind实验室的模拟3D世界中。在那儿，模型就像是婴儿躺在婴儿床上一样，不能移动，但可以转动头部，并观察在各种不同颜色的背景下可能呈现在他面前的物体，例如帽子、行李箱或冰棍。和婴儿的视觉系统类似，这个模型会学习视觉世界的基本结构以及如何用可表述的视觉特征来表示物体。例如，当看到苹果时，模型将会学习根据其颜色、形状、大小、位置或明暗来表示它

图：SCAN模型依据物体的个体区分、颜色和旋转、墙壁颜色、地板颜色等可表述的视觉特征等来学习，去表示视觉场景。

一旦模型能够根据可表述的视觉特征来解析世界，就进入学习过程中的命名阶段。这相当于婴儿的单词学习，大人开始为他们看到的各种东西提供单词符号标签。例如，在这个阶段，父母可能指着一个苹果对孩子说：“看，一个苹果！”同样的，对SCAN模型输入基础语言之后，它的经验也在增强。一张黄色墙壁背景下红色行李箱的图像将伴随着“红色行李箱、黄色墙壁”这样的符号输入。SCAN模型能够通过在前一阶段学习的视觉特征来构建抽象概念，进而学习新的概念。例如，苹果的概念可以根据其颜色、形状和大小来说明，而诸如位置和明暗等其他视觉特征则会被认定为与其无关。
命名阶段可以从任何层次学习视觉概念，同样也可用于向模型教授“和”、“忽略”和“共同”等这些概念重组操作，这种教授是通过向模型展示如何正确使用这些操作的例子来实现的。例如，“和”的意思可以通过向SCAN模型展示一张金冠苹果的图像，同时伴随“金冠苹果是黄色的和苹果” 这样的指令来训练。
一旦SCAN模型学习了一定数量的概念词汇，并学会通过符号性的指令来处理它们，它就能在词语形式的指示下，将常见的概念组合成新的概念，而不需要更多的图像作为例子。通过这些指令，SCAN可以想象出大量新的视觉概念，如蓝苹果（“蓝色的和苹果”）或不同种类的苹果（“澳洲青苹是金冠苹果，忽略黄色，和绿色”）

视觉slam深度学习（DeepMind提出SCAN仅需五对样本）(1)

图：首先，SCAN模型通过语言指令连接概念层次——从“蓝色房间、红色地板、白色行李箱”这种具体的概念，到“行李箱”这种普遍的概念，再回到“黄色房间、粉红色地板、绿色行李箱“这种具体的概念。在每一步SCAN系统都会被要求想象出相应的概念（如图右所示）。最后，向它指示一个新的概念——“woog”。虽然从没看到过“woog”的例子，SCAN系统能成功地想象出它们看起来是什么样的（黄色房间、粉红色地板、绿色物体）。

他们的方法不同于以往的研究，因为它完全基于感官数据，只需要从非常少的图像—词汇对中学习。当其他的深度学习方法需要数千个图像示例来学习一个概念时，SCAN模型通过非监督观测，学习视觉特征和抽取概念，只需五对图像—标签对就可以学会一个概念。一旦训练好了，SCAN模型就可以生成与特定图像相对应的各种概念，并且可以想像出与特定概念相对应的多种可视化示例，即使它以前从未见过此类概念。

图：图中左边是SCAN模型设想的“白色行李箱”的图像，右边是SCAN模型从“粉色房间、橙色地板、青色帽子”这张图像上产生的概念。

通过符号指示，来重组现有的概念，学习新概念，这赋予了人类惊人的能力，使其能够解释诸如宇宙、人文主义或美索不达米亚经济案例中的抽象概念。在成功实现这些概念性的飞跃之前，算法还有很长的路要走。他们的这项研究朝着算法的飞跃前进了第一步，即让算法在很大程度通过无监督的方式学习，就像人类一样思考，进行概念抽取。

via DeepMind Research Blog

雷锋网 AI科技评论编译。

网站首页

返回栏目

视觉slam深度学习（DeepMind提出SCAN仅需五对样本）

猜您喜欢：

相关文章