快捷搜索:  汽车  科技

人工智能时代的计算机视觉(人工智能发展概况)

人工智能时代的计算机视觉(人工智能发展概况)语义分割是近年来非常热门的方向,简单来说,它其实可以看作一种特殊的分类——将输入图像的每一个像素点进行归类,用一张图就可以很清晰地描述出 来。很清楚地就可以看出,物体检测和识别通常是将物体在原图像上框出,可以 说是“宏观”上的物体,而语义分割是从每一个像素上进行分类,图像中的每一 个像素都有属于自己的类别。 语义分割 物体识别和检测物体检测一直是计算机视觉中非常基础且重要的一个研究方向,大多数新的算法或深度学习网络结构都首先在物体检测中得以应用如 VGG-net,GoogLeNet, ResNet 等等,每年在 imagenet 数据集上面都不断有新的算法涌现,一次次突破历史,创下新的记录,而这些新的算法或网络结构很快就会成为这一年的热点, 并被改进应用到计算机视觉中的其它应用中去。物体识别和检测,顾名思义,即给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别及位置输出

计算机视觉

1 计算机视觉概念

计算机视觉(computer vision),顾名思义,是分析、研究让计算机智能化的达到类似人类的双眼“看”的一门研究科学。即对于客观存在的三维立体化 的世界的理解以及识别依靠智能化的计算机去实现。确切地说,计算机视觉技术 就是利用了摄像机以及电脑替代人眼使得计算机拥有人类的双眼所具有的分割、 分类、识别、跟踪、判别决策等功能。总之,计算机视觉系统就是创建了能够在 2D 的平面图像或者 3D 的三维立体图像的数据中,以获取所需要的“信息”的一个完整的人工智能系统。

人工智能时代的计算机视觉(人工智能发展概况)(1)

计算机视觉技术是一门包括了计算机科学与工程、神经生理学、物理学、信号处理、认知科学、应用数学与统计等多门科学学科的综合性科学技术。由于计 算机视觉技术系统在基于高性能的计算机的基础上,其能够快速的获取大量的数 据信息并且基于智能算法能够快速的进行处理信息,也易于同设计信息和加工控制信息集成。

计算机视觉本身包括了诸多不同的研究方向,比较基础和热门的方向包括: 物体识别和检测(Object Detection),语义分割(Semantic Segmentation),运动 和跟踪(Motion & Tracking),视觉问答(Visual Question & Answering)等。

 物体识别和检测

物体检测一直是计算机视觉中非常基础且重要的一个研究方向,大多数新的算法或深度学习网络结构都首先在物体检测中得以应用如 VGG-net,GoogLeNet, ResNet 等等,每年在 imagenet 数据集上面都不断有新的算法涌现,一次次突破历史,创下新的记录,而这些新的算法或网络结构很快就会成为这一年的热点, 并被改进应用到计算机视觉中的其它应用中去。

物体识别和检测,顾名思义,即给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别及位置输出出来。当然也就衍生出了诸如人脸检测(Face Detection),车辆检测(Viechle Detection)等细分类的检测算法。

 语义分割

语义分割是近年来非常热门的方向,简单来说,它其实可以看作一种特殊的分类——将输入图像的每一个像素点进行归类,用一张图就可以很清晰地描述出 来。很清楚地就可以看出,物体检测和识别通常是将物体在原图像上框出,可以 说是“宏观”上的物体,而语义分割是从每一个像素上进行分类,图像中的每一 个像素都有属于自己的类别。

 运动和跟踪

跟踪也属于计算机视觉领域内的基础问题之一,在近年来也得到了非常充足 的发展,方法也由过去的非深度算法跨越向了深度学习算法,精度也越来越高, 不过实时的深度学习跟踪算法精度一直难以提升,而精度非常高的跟踪算法的速 度又十分之慢,因此在实际应用中也很难派上用场。

学术界对待跟踪的评判标准主要是在一段给定的视频中,在第一帧给出被跟 踪物体的位置及尺度大小,在后续的视频当中,跟踪算法需要从视频中去寻找到 被跟踪物体的位置,并适应各类光照变换,运动模糊以及表观的变化等。但实际 上跟踪是一个不适定问题(ill posed problem),比如跟踪一辆车,如果从车的尾 部开始跟踪,若是车辆在行进过程中表观发生了非常大的变化,如旋转了180度变成了侧面,那么现有的跟踪算法很大的可能性是跟踪不到的,因为它们的模型 大多基于第一帧的学习,虽然在随后的跟踪过程中也会更新,但受限于训练样本 过少,所以难以得到一个良好的跟踪模型,在被跟踪物体的表观发生巨大变化时, 就难以适应了。所以,就目前而言,跟踪算不上是计算机视觉内特别热门的一个研究方向,很多算法都改进自检测或识别算法。

 视觉问答

视觉问答也简称 VQA(Visual Question Answering),是近年来非常热门的 一个方向,其研究目的旨在根据输入图像,由用户进行提问,而算法自动根据提 问内容进行回答。除了问答以外,还有一种算法被称为标题生成算法(Caption Generation),即计算机根据图像自动生成一段描述该图像的文本,而不进行问 答。对于这类跨越两种数据形态(如文本和图像)的算法,有时候也可以称之为多模态,或跨模态问题。

2 计算机视觉发展历史

尽管人们对计算机视觉这门学科的起始时间和发展历史有不同的看法,但应 该说,1982 年马尔(David Marr)《视觉》(Marr,1982)一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分。物体视觉在于对物体 进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)” 服务。正像著名的认知心理学家 J.J.Gibson 所言,视觉的主要功能在于“适应外界环境,控制自身运动”。适应外界环境和控制自身运动,是生物生存的需求, 这些功能的实现需要靠物体视觉和空间视觉协调完成。

计算机视觉40多年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程。即:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。下面将对这三项主要内容进行简要介绍。

 马尔计算视觉(Computational Vision)

现在很多计算机视觉的研究人员,恐怕对“马尔计算视觉”根本不了解,这不能不说是一件非常遗憾的事。目前,在计算机上调“深度网络”来提高物体识别的精度似乎就等于从事“视觉研究”。事实上,马尔的计算视觉的提出,不论在理论上还是研究视觉的方法论上,均具有划时代的意义。

马尔的计算视觉分为三个层次:计算理论、表达和算法以及算法实现。由于马尔认为算法实现并不影响算法的功能和效果,所以,马尔计算视觉理论主要讨论“计算理论”和“表达与算法”二部分内容。马尔认为,大脑的神经计算和计 算机的数值计算没有本质区别,所以马尔没有对“算法实现”进行任何探讨。从 现在神经科学的进展看,“神经计算”与数值计算在有些情况下会产生本质区别, 如目前兴起的神经形态计算(Neuromorphological computing),但总体上说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途径”,并 不影响马尔计算视觉理论的本质属性。

 多视几何与分层三维重建

上世纪 90 年代初计算机视觉从“萧条”走向进一步“繁荣”,主要得益于 以下二方面的因素:首先,瞄准的应用领域从精度和鲁棒性要求太高的“工业应 用”转到要求不太高,特别是仅仅需要“视觉效果”的应用领域,如远程视频会议(teleconference),考古,虚拟现实,视频监控等。另一方面,人们发现,多 视几何理论下的分层三维重建能有效提高三维重建的鲁棒性和精度。

多视几何的代表性人物首数法国 INRIA 的 O.Faugeras,美国 GE 研究院的 R.Hartely 和英国牛津大学的 A.Zisserman。应该说,多视几何的理论于 2000 年已 基本完善。2000 年 Hartley 和 Zisserman 合著的书(Hartley & Zisserman2000)对 这方面的内容给出了比较系统的总结,而后这方面的工作主要集中在如何提高 “大数据下鲁棒性重建的计算效率”。大数据需要全自动重建,而全自动重建需要反复优化,而反复优化需要花费大量计算资源。所以,如何在保证鲁棒性的前 提下快速进行大场景的三维重建是后期研究的重点。举一个简单例子,假如要三 维重建北京中关村地区,为了保证重建的完整性,需要获取大量的地面和无人机 图像。假如获取了 1 万幅地面高分辨率图像(4000×3000),5千幅高分辨率无 人机图像(8000×7000)(这样的图像规模是当前的典型规模),三维重建要匹 配这些图像,从中选取合适的图像集,然后对相机位置信息进行标定并重建出场 景的三维结构,如此大的数据量,人工干预是不可能的,所以整个三维重建流程必须全自动进行。这样需要重建算法和系统具有非常高的鲁棒性,否则根本无法全自动三维重建。在鲁棒性保证的情况下,三维重建效率也是一个巨大的挑战。 所以,目前在这方面的研究重点是如何快速、鲁棒地重建大场景。

 基于学习的视觉

基于学习的视觉,是指以机器学习为主要技术手段的计算机视觉研究。基于 学习的视觉研究,文献中大体上分为二个阶段:本世纪初的以流形学习为代表的 子空间法和目前以深度学习为代表的视觉方法。

物体表达是物体识别的核心问题,给定图像物体,如人脸图像,不同的表达,物体的分类和识别率不同。另外,直接将图像像素作为表达是一种“过表达”,也不是一种好的表达。流形学习理论认为,一种图像物体存在其“内在流形” (intrinsic manifold),这种内在流形是该物体的一种优质表达。所以,流形学习就是从图像表达学习其内在流形表达的过程,这种内在流形的学习过程一般是一种非线性优化过程。深度学习的成功,主要得益于数据积累和计算能力的提高。 深度网络的概念上世纪 80 年代就已提出来了,只是因为当时发现“深度网络” 性能还不如“浅层网络”,所以没有得到大的发展。目前似乎有点计算机视觉就 是深度学习的应用之势,这可以从计算机视觉的三大国际会议:国际计算机视觉 会议(ICCV),欧洲计算机视觉会议(ECCV)和计算机视觉和模式识别会议 (CVPR)上近年来发表的论文可见一般。目前的基本状况是,人们都在利用深 度学习来“取代”计算机视觉中的传统方法。“研究人员”成了“调程序的机器”, 这实在是一种不正常的“群众式运动”。牛顿的万有引力定律,麦克斯韦的电磁方程,爱因斯坦的质能方程,量子力学中的薛定谔方程,似乎还是人们应该追求的目标。

3 人才概况

 全球人才分布

学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为计算机视觉领域全球学者分布情况:

人工智能时代的计算机视觉(人工智能发展概况)(2)

计算机视觉全球学者分布

地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集 中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要集中在我国东部及日韩地区;欧洲的人才主要分布 在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;计算机视觉领域的人才分布与各地区的科技、经济实力情况大体一致。

此外,在性别比例方面,计算机视觉中男性学者占比 91.0%,女性学者占比 9.0%,男性学者占比远高于女性学者。

计算机视觉学者的 h-index 分布如下图所示,大部分学者的 h-index 分布在 中间区域,其中 h-index 在 20-30 区间的人数最多,有706人,占比 34.7%,小于20 的区间人数最少,有 81 人。

人工智能时代的计算机视觉(人工智能发展概况)(3)

计算机视觉学者 h-index 分布

 中国人才分布

人工智能时代的计算机视觉(人工智能发展概况)(4)

中国计算机视觉学者分布

我国专家学者在计算机视觉领域的分布如下图所示。通过下图我们可以发现,京津地区在本领域的人才数量最多,其次是珠三角和长三角地区,相比之下,内 陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时, 通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比, 中国在计算机视觉领域学者数量相对较多。

 中国国际合作

中国与其他国家在计算机视觉的合作情况可以根据 AMiner 数据平台分析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国 与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序,如下表所示。

人工智能时代的计算机视觉(人工智能发展概况)(5)

计算机视觉中国与各国合作论文情况

从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在计算机视觉领域合作之密切;同时,中国与世界各地区之间的合作非常广泛,前 10 名合作关系里包含了欧洲、亚洲、北美洲以及大洋洲等;中国与加拿大合作的论文数虽然不是最多,但是拥有最高的平均引用数说明在合作质量上中加合作达到了较高的水平。

4 计算机视觉进展

近年来,巨量数据的不断涌现与计算能力的快速提升,给以非结构化视觉数据为研究对象的计算机视觉带来了巨大的发展机遇与挑战性难题,计算机视觉也 因此成为学术界和工业界公认的前瞻性研究领域,部分研究成果已实际应用,催生出人脸识别、智能视频监控等多个极具显示度的商业化应用。

计算机视觉的研究目标是使计算机具备人类的视觉能力,能看懂图像内容、 理解动态场景,期望计算机能自动提取图像、视频等视觉数据中蕴含的层次化语义概念及多语义概念间的时空关联等。计算机视觉领域不断涌现出很多激动人心 的研究成果,例如,人脸识别、物体识别与分类等方面的性能已接近甚至超过人类视觉系统。本文根据近两年计算机视觉领域顶级会议最佳论文及高引论文,对该领域中的技术现状和研究前沿进行了综合分析。

近两年大多数研究都集中在深度学习、检测和分类以及面部/手势/姿势、3D传感技术等方面。随着计算机视觉研究的不断推进,研究人员开始挑战更加困难的计算机视觉问题,例如,图像描述、事件推理、场景理解等。单纯从图像或视 频出发很难解决更加复杂的图像理解任务,一个重要的趋势是多学科的融合,例 如,融合自然语言处理领域的技术来完成图像描述的任务。图像描述是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其目标是翻译一幅图片为一段描述文字。目前主流框架为基于递归神经网络的编码器解码器结构其核心思想类似于自然语言机器翻译。但是,由于递归网络不易提取输入图像和文本的空间以及层次化约束关系,层次化的卷积神经网络以及启发自认知模型的注意力机制受到关注。如何进一步从认知等多学科汲取知识,构建多模态多层次的描述模型是当前图像描述问题研究的重点。

事件推理目标是识别复杂视频中的事件类别并对其因果关系进行合理的推理和预测。与一般视频分析相比,其难点在于事件视频更加复杂,更加多样化, 而最终目标也更具挑战性。不同于大规模图像识别任务,事件推理任务受限于训练数据的规模,还无法构建端到端的事件推理系统。目前主要使用图像深度网络作为视频的特征提取器,利用多模态特征融合模型,并利用记忆网络的推理能力, 实现对事件的识别和推理认知。当前研究起源于视频的识别和检测,其方法并未充分考虑事件数据的复杂和多样性。如何利用视频数据丰富的时空关系以及事件之间的语义相关性,应是今后的关注重点。

场景理解的目的是计算机视觉系统通过分析处理自身所配置的传感器采集 的环境感知数据,获得周围场景的几何/拓扑结构、组成要素(人、车及物体等) 及其时空变化,并进行语义推理,形成行为决策与运动控制的时间、空间约束。 近年来,场景理解已经从一个初期难以实现的目标成为目前几乎所有先进计算机视觉系统正在不断寻求新突破的重要研究方向。利用社会-长短记忆网络(Social- LSTM)实现多个行人之间的状态联系建模,结合各自运动历史状态,决策出未来时间内的运动走向。此外神经网络压缩方向也是是目前深度学习研究的一个热门的方向,其主要的研究技术有压缩,蒸馏,网络架构搜索,量化等。

综上所述,视觉的发展需要设计新的模型,它们需要能考虑到空间和时间信息;弱监督训练如果能做出好的结果,下一步就是自监督学习;需要高质量的人类检测和视频对象检测数据集;结合文本和声音的跨模态集成;在与世界的交互中学习。

扩展阅读:

人工智能发展概况:机器学习篇

人工智能发展概况:计算机视觉篇

人工智能发展概况:知识工程篇

人工智能发展概况:自然语言处理篇

视频:人工智能时代

资料来源:公开网络

猜您喜欢: