快捷搜索:  汽车  科技

用这个模板记录爱豆造型:天啦噜 在家和爱豆玩 剪刀石头布

用这个模板记录爱豆造型:天啦噜 在家和爱豆玩 剪刀石头布模型在高通骁龙845上运行单帧图片(320*320输入)只需要11ms,在RK3399这种低端嵌入式芯片上也可以跑到15fps,预测精度能够很好的支持我们线上线下的互动场景,且模型大小仅2.5M。下面是我们多人实时关键点识别在RK3399上跑的效果:人体关键点检测任务是针对RGB图片或视频输入,检测其中人物的头、颈、肩、腕、肘、髋、膝、踝等骨骼关键点。传统的基于视觉的关键点检测技术一般需借助Kinect等特殊的摄像头设备,解决方案成本高,且不易扩展。而近年来学术界利用深度学习的相关工作又重在追求精度,模型设计复杂,速度比较慢且需要占用大量存储空间。 我们在平衡计算量和精度上做了大量探索和实验,提出一个能在手机端上实时运行的高精度人体关键点检测模型。具体来说,我们借鉴了语义分割中的Encoder-Decoder模型,引入MobileNet系列轻量级网络作为backbone提取高层语义信息,然

下面是商场场景下的切割效果:

用这个模板记录爱豆造型:天啦噜 在家和爱豆玩 剪刀石头布(1)

三. 猜拳游戏:手势识别

18年双11期间我们在手淘上线了“明星猜拳大战”玩法,受到用户大量好评。这是业界首次在手机端上实现的实时猜拳玩法。

猜拳互动要求实时检测用户的手势(剪刀/石头/布/其他),我们需要从用户视频的每一帧中找到手的位置,然后再对其进行分类,这也就是目标检测要做的事情。

虽然目标检测在近几年得到了飞速的发展,但是直接将现有模型算法用在猜拳游戏上还是会遇到一些挑战。首先由于手是非刚体,形变极大,同一个手势会表现出很多形态,再加上角度等问题,使得我们几乎不可能穷举所有可能的情况。另外,用户在切换手势的过程中会出现很多中间形态,这些形态的类别也很难确定。此外我们需要在手淘app覆盖的绝大部分中低端机型上做到实时运行,这对我们的模型运行速度提出很大挑战。

为此我们从模型架构、主干网络、特征融合、损失函数、数据等层面进行了全方位的优化,保证游戏能够在大部分移动端上都能够正常运行。具体的,在模型架构上我们采用了经典的SSD框架,因为SSD速度快、效果好、易扩展;主干网络借鉴了最新的MNasNet,进行了深度的优化,使其速度和精度进一步提升;特征融合用的是改进版的特征金字塔FPN,使其融合能力更强更高效。最终我们的模型优化到只有1.9M,双十一手淘的线上ios设备平均运行时间17ms,在测试集上的AP(IoU=0.5)达到了0.984。

用这个模板记录爱豆造型:天啦噜 在家和爱豆玩 剪刀石头布(2)

四. 人体关键点检测

人体关键点检测任务是针对RGB图片或视频输入,检测其中人物的头、颈、肩、腕、肘、髋、膝、踝等骨骼关键点。传统的基于视觉的关键点检测技术一般需借助Kinect等特殊的摄像头设备,解决方案成本高,且不易扩展。而近年来学术界利用深度学习的相关工作又重在追求精度,模型设计复杂,速度比较慢且需要占用大量存储空间。 我们在平衡计算量和精度上做了大量探索和实验,提出一个能在手机端上实时运行的高精度人体关键点检测模型。具体来说,我们借鉴了语义分割中的Encoder-Decoder模型,引入MobileNet系列轻量级网络作为backbone提取高层语义信息,然后decoder使用转置卷积进行上采样恢复稠密输出,同时也使用了open pose工作的PAF(Part Affinity Fields)模块进行两路输出预测。

模型在高通骁龙845上运行单帧图片(320*320输入)只需要11ms,在RK3399这种低端嵌入式芯片上也可以跑到15fps,预测精度能够很好的支持我们线上线下的互动场景,且模型大小仅2.5M。下面是我们多人实时关键点识别在RK3399上跑的效果:

用这个模板记录爱豆造型:天啦噜 在家和爱豆玩 剪刀石头布(3)

五.图像风格化

图像风格化算法的目标是在保持内容图的高级语义信息不变的情况下,将风格图的风格迁移到内容图。 风格化算法一般有2类:慢速、快速风格化,我们的互动场景下只适合后者: 对特定风格图训练前向神经网络模型,在测试的时候只需要一次前向即可得到响应结果。虽然快速图像风格化算法的速度较快,但是与此同时带来的一个缺点是风格迁移过程中很多因素变得不可控,比如笔触大小。 给定一个预训练好的网络和一张固定大小的内容图,输出的风格化结果图的笔触大小是固定的,无法让用户进行笔触大小的灵活控制, 即无法实现精细的任意连续笔触大小控制。针对此问题,我们和浙江大学宋明黎老师团队合作,提出了一个笔触大小可控的图像风格化迁移算法。

我们设计了一个笔触金字塔结构,通过笔触金字塔(StrokePyramid),把整个网络划分为了很多不同笔触分支,下面的分支通过在前一分支的基础上增加卷积层的方式获得了更大的感受,并利用不同的感受野,使用不同尺度大小的风格图进行训练,之后通过在特征空间进行笔触特征插值(stroke interpolation),来实现任意的连续笔触大小控制。在测试阶段,笔触金字塔通过门函数来控制网络的感受野,从而产生出与感受野对应的不同的笔触大小。

用这个模板记录爱豆造型:天啦噜 在家和爱豆玩 剪刀石头布(4)

下面是我们在明星合图活动上应用的不同笔触风格迁移效果。

对于1024×1024 大小的测试图,我们的模型在NVIDIA Quadro M6000上只需要0.09s的时间,模型大小为0.99MB。

用这个模板记录爱豆造型:天啦噜 在家和爱豆玩 剪刀石头布(5)

猜您喜欢: