图像识别哪个优化函数准确率高(视觉识别中的高分辨率表征学习)
图像识别哪个优化函数准确率高(视觉识别中的高分辨率表征学习)刚开始我们称之为验证阶段,真正拿去做比较的还有测试机,意味着我们在这个实验里面不知道需要测试图像的点的真正位置,预测出来以后会提交到一个网站上面,让它们做评测,这样看上去更公平一点。公开的结果里面,也有美国高校比如CMU的工作,也有谷歌、FacebooK的工作,我们的结果都比它们好很多。这个是我们的网络结构,我们做了一系列实验验证,主要涉及到五个,今天我会着重讲两三个实验。第一个是人体的姿态估计,需要从图片里面给每个人的关节点,主要是手部、肘部、腿部的关节点。在日常生活中广泛应用,比如手部的辨识,短视频里面人的特效,都会利用这项技术。前面讲了网络结构,这里面仅仅用了最高分辨率的表征的输出。用到的第一个数据集是COCO,在计算机视觉领域里面,有很多工业界、学术界一起做的数据集。人的姿态、人的多少,都非常丰富。跟我们以前最好的方法,比如HRNet W48,从参数量上说,倒数第二个结果和倒数第三
关注人工智能前沿讲习, 重磅干货,第一时间送达一:报告导读
本次报告主要分享的是高分辨率表征学习,在计算机视觉识别里面的应用,包括如何在整个神经网络结构中维持高分辨率的表征,提出了HRNet模型结构,以及在场景分割、关键点检测、人脸对齐等任务中的实验结果和应用,最后对网络空间搜索的探索和影响等问题进行了探讨和展望。
二、专家介绍王井东,微软亚洲研究院首席研究员,国际模式识别学会会士。担任或曾担任过CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM 等人工智能会议的领域主席或高级程序委员会委员。现为IEEE 汇刊 IEEE TPAMI IEEE TCSVT和IEEE TMM的编委会成员曾获得ACM MM 2015最佳论文提名。其研究成果10多次转化到微软的关键产品和服务中。主要从事计算机视觉、深度学习及多媒体等领域的研究,包括神经网络结构的设计、行人姿势估计、图像分割、目标检测以及多媒体搜索等。
这波人工智能的发展非常热,很大一部分原因在于2012年,深度学习在计算机视觉的一个重大突破。突破在什么地方呢?主要是表征非常强。
我们看一下,2012年以来计算机结构是怎样发展来的?这样的结构,是今年图灵奖获得者之一的专家设计的一个结构。它的特征是,在图象识别里面输入一个图像,经过若干次卷积,把表征变小,最后得到一个小的表征。在这个例子里面,输入的大小是32×32,最后会变成5×5,然后再经过变换变成向量,最后进入一个分类器。换句话说,这种网络结构的特征,是把高分辨率的特征、中低等分辨率的卷积串联起来,最后得到一个表征。
2012年以来,在计算机视觉领域里,非常流行的网络结构都是得到小分辨率的表征。这样一个网络结构在图象识别里面还是可以的,取得了大的突破。但是在其他的计算机领域,比如检测、分割,以及人脸对齐,还有人体姿态估计,这样的任务中实际是和位置相关需要对每个象素进行标注。换句话说,我们需要高分辨率的表征。我们可以看看以前是怎么做高分辨率表征的。我们总结一下,这些结构的特征,首先从低分辨率的网络结构,恢复到高分辨率。当然也可以进行所谓的超连接,把低层次的高分辨率表征跟高层次的特征关联起来。
这些方法也有缺点,首先把图像的空间尺寸变小,然后再恢复成高的,意味着空间的信息会在处理过程中损失掉。我们希望设计整个网络结构里面,不是去恢复,而是维持高分辨率的表征。我们看这个网络结构是怎么设计的,这个图是传统的,比如分类网络结构的形式,这里面大概有三个分支,这之间是串联起来的。第一个分支是对高分辨率的卷积,这里面每个小方块对应的是特征,箭头对应的是操作在这里卷积,然后有中等分辨率的,还有低分辨率的,这样的特点是串联起来的。我们做得方法比较简单,把这几个不同分辨率的卷积并联起来,这样的好处在于最后三个并联起来的卷积,可以看到它会输入高分辨率出来。同时,我们希望三个分支之间进行不停地交互,我们希望每个分支能从别的分支里面进行信息交互,起到互相帮助的作用第二个特点,传统的为了得到高分辨率的表征,需要去恢复,一开始就有高分辨率的表征,在整个网络过程里面。同时为了加强网络最后输出的表征强度和可信度,希望在不同分辨率的卷积之间进行交互。最终这三点综合起来,这样设计的一个网络结构称之为HRNet,会学到非常高分辨率的特征。
在我们的实验设计里面,实际网络结构是这样的,我们称为四步。第一步里面只有高分辨率的,第二步是除了高分辨率又加了降二分之一分辨率的,第三步又降一点。同时设计的网络结构是模块化的,比如在第三步里面,重复了四个模块,这个模块是完全一样的。第四步里面是重复了三个模块,也是完全一样的。网络结构里面,改变它的网络能力,这里面指的是怎么改变网络结构的复杂度。在我们的设计里面,深度是固定的,改变的是每个分支网络通道的数目。
这个是我们的网络结构,我们做了一系列实验验证,主要涉及到五个,今天我会着重讲两三个实验。第一个是人体的姿态估计,需要从图片里面给每个人的关节点,主要是手部、肘部、腿部的关节点。在日常生活中广泛应用,比如手部的辨识,短视频里面人的特效,都会利用这项技术。前面讲了网络结构,这里面仅仅用了最高分辨率的表征的输出。用到的第一个数据集是COCO,在计算机视觉领域里面,有很多工业界、学术界一起做的数据集。人的姿态、人的多少,都非常丰富。跟我们以前最好的方法,比如HRNet W48,从参数量上说,倒数第二个结果和倒数第三个结果比起来,参数是很好的,最后一个也是我们的结果,结果优势非常明显。
刚开始我们称之为验证阶段,真正拿去做比较的还有测试机,意味着我们在这个实验里面不知道需要测试图像的点的真正位置,预测出来以后会提交到一个网站上面,让它们做评测,这样看上去更公平一点。公开的结果里面,也有美国高校比如CMU的工作,也有谷歌、FacebooK的工作,我们的结果都比它们好很多。
除了单帧图像的数据,还有多帧,因为我们平时得到的图像,很多数据是视频的,我们也会做一些实验。PoseTrack是最近几年逐渐受人关注的数据集,当时的结果HRNet都是排名第一的。左边的结果,我们评测的方法还是每一帧单独做评测,但是给每一帧预测人的关键点,我们可以用别的关联信息。右边的比较,拿不同帧之间的同一个人检测的关节点要关联起来。
除此之外还做了分割,今天自动驾驶是一个热门领域,里面很重要的任务就涉及到分割,然后是人体的分割,今天有很多短视频的应用。最后一个是场景分割,我们看这个结果,网络结构基本类似,但是分割任务比姿态估计要复杂一点,所以这个任务里面有四个通道、四个分支出来的特征一起做分割任务。
这里面看三个数据集,第一个是cityscapes,比如谷歌的deep lab,还有国内初创企业的商汤PSPNet,第四列是计算量的评测标准,前面四个方法,除了UNet 以外,都是四位数,我们是三位数。评测指标,检测分割的好坏,可以看到只有我们的方法是80%以上的。在测试集里面同样类似的观察,这里面也有谷歌的方法,实验室的方法。这是人体的部件分割,这里面也有谷歌的方法。从这三个指标讲,我们都比前面的方法要好。
我刚才着重讲了姿态估计和分割,除此以外还有人脸的对齐,今天大家用一些美颜,就跟这个问题相关,美颜里面也会用相关的技术。还有检测,检测也是非常重要的,自动驾驶里面,检测用得也很多。最右边是分类,为什么讲分类?因为在计算机视觉领域里面,基本上大多数问题都用在计算机视觉领域一个重要的数据,需要把内容预先训练出来。这个结果稍微要好一点点,我们做这个的时候并不期望是这样的,我们的出发点是做一个高分辨率的表征,分类的问题不是我们想要解决的目标,但结果还是不错的,比传统的分类网络要好。
简单讨论一下,第一个就是高分辨率网络跟传统的基于低分辨率的网络比起来,可以被验证比传统的方法要好。但是在分类里面,还不是很清楚是不是一定要高分辨率的网络。第二个讨论,网络结构的设计跟网络搜索,大家知道,今天由于计算力的强大,很多时候可以用搜索的方法代替人做网络结构的设计,很多人也担忧,人工智能会不会完全代替人。在我们的研究领域,其实有这样的问题有自动搜索了,还要人工干什么?答案是这样的,所有的搜索都依赖于所谓的搜索空间,换句话说,你要找个东西,到哪边去找?设计就会告诉你,在哪些地方找,比如在这里面是网络结构。
除了我们自己做的这些以外,也有很多人沿着我们这个方法往前走。比如风格迁移化,把不同的图像映射到我们想要的风格里。这是一个例子,第一列是圆图,第二列是我们想要的风格,第三列是我们得到的风格。
还有一些称之为图像填充,因为有些照片尤其很久以前的照片是没有电子版,里面不小心有些地方损坏了,能不能恢复,这显然也是高分辨率的问题。
还有一系列的视觉任务可以使用HRNet,比如超分辨率,图片比较小,能不能把它的尺寸变大。还有在动态图像里面顾及光流,还要顾及深度,还有传统的问题比如边缘检测。HRNet大概是2月底开源了 首先是姿态的估计,目前接近1800的下载量。除此之外,把其它问题对应的代码也进行了开源。
简单总结一下,我们的网络结构看上去非常简单,从串联到并联,并联的分支之间也加一些交互,非常简单。同时我们自己也做了一些验证。这样的网络结构,看上去已经替代了目前设计以分类网络为基础的网络结构设计方法去解决不同的问题。
点击 首页_第14期CSIG图像图形学科前沿讲习班或 扫描图片二维码了解更多大会信息