淘宝页面规划经验(为什么你逛的淘宝页面和女朋友不一样)
淘宝页面规划经验(为什么你逛的淘宝页面和女朋友不一样)全球知名市场研究机构eMarketer预计 2019年全球零售电子商务销售额达3.563万亿美元,电子零售收入预计到2022年将增长至6.54万亿美元1。如此快速的增长为全球电子商务行业带来了广阔的前景,这标志着一个强劲的市场和广阔的客户需求。电商平台面临的最大挑战是从日益增长的海量物料(数十亿)中挑选出一个小的子集(几十或上百)展示给用户,以满足用户的个性化购物需求。建设大规模电商认知图谱可以有效解决重复推荐、缺少新意等问题。通过构建电商认知图谱,将用户、场景、物料进行有效地关联,可以挖掘出更多的用户标签,精准感知用户场景,从而使电商搜索和推荐更加准确,有效提高货品转化率。电商认知图谱认知图谱简介认知图谱是计算机科学的一个研究分支,旨在结合认知心理学、脑科学和人类知识等,研发知识图谱、认知推理、逻辑表达的新一代认知引擎,企图了解智能的实质,实现人工智能从感知智能向认知智能的演进和重大技术
本文节选自中国计算机学会(CCF)会员刊物《中国计算机学会通讯》(CCCF)所刊登内容,如想获取完整版,请关注CCF头条号,或者于CCCF查看原文。
千人千面帮助手淘从大的超市升级成为每个消费者拥有个性化的货架,但是对于消费者未来的需求推理还是有欠缺的。认知图谱的出现就是为了解决这个难题,希望每位消费者个性化的货架旁边有一个“AI导购员”,可以推理认知并且与消费者交互未来的需求。
关键词:认知图谱推荐系统
2020年1月2日,阿里巴巴达摩院发布《2020十大科技趋势》[1],第一条就是“人工智能从感知智能向认知智能演进”。人工智能已经在“听、说、看”等感知智能领域达到或超越了人类水准,但在需要外部知识、逻辑推理或者领域迁移的认知智能领域还处于初级阶段。认知智能将从认知心理学、脑科学及人类社会历史中汲取灵感,并结合跨领域知识图谱、因果推理、持续学习等技术,建立稳定获取和表达知识的有效机制,让知识能够被机器理解和运用,实现从感知智能到认知智能的关键突破。
认知图谱简介
认知图谱是计算机科学的一个研究分支,旨在结合认知心理学、脑科学和人类知识等,研发知识图谱、认知推理、逻辑表达的新一代认知引擎,企图了解智能的实质,实现人工智能从感知智能向认知智能的演进和重大技术突破。
让机器具备认知智能,其核心就是让机器具备理解和解释能力。这种能力的实现与大规模、结构化的背景知识密不可分。认知图谱是实现机器认知智能的使能器,一方面通过建立从数据到知识图谱中实体、概念、关系的映射,让机器理解数据的本质;另一方面利用知识图谱中实体、概念和关系来解释现实世界中的事物和现象,让机器解释现象的本质。机器认知智能的发展过程本质上是人类脑力不断解放的过程,是人工智能的最高阶段。认知图谱是实现机器认知智能的底层支撑手段,它不是束之高阁、高高在上的前沿技术,而是一类能够实实在在落地的、有着广泛且多样的应用需求的、能够产生巨大社会经济价值的技术,应用场景主要体现在电商平台、智慧城市、司法行业、银行、安防行业、精准分析、智慧搜索、智能推荐、智能解释、更自然的人机交互和深层关系推理等各个方面。
电商认知图谱
全球知名市场研究机构eMarketer预计 2019年全球零售电子商务销售额达3.563万亿美元,电子零售收入预计到2022年将增长至6.54万亿美元1。如此快速的增长为全球电子商务行业带来了广阔的前景,这标志着一个强劲的市场和广阔的客户需求。电商平台面临的最大挑战是从日益增长的海量物料(数十亿)中挑选出一个小的子集(几十或上百)展示给用户,以满足用户的个性化购物需求。建设大规模电商认知图谱可以有效解决重复推荐、缺少新意等问题。通过构建电商认知图谱,将用户、场景、物料进行有效地关联,可以挖掘出更多的用户标签,精准感知用户场景,从而使电商搜索和推荐更加准确,有效提高货品转化率。
电商相关的文本语料稀缺,给抽取带来了极大的困难。针对这些难点,阿里巴巴正在着手设计一套人工 算法不断迭代优化的主动学习(active learning)流程,希望为后续的概念理解和推理应用提供可靠的支持。阿里巴巴集团旨在打造全球最大的中文电商知识图谱,支持包括淘宝、天猫、优酷以及海外电商在内的整个阿里集团的推荐与搜索业务,每天服务上亿用户。电商认知图谱从电商场景下的用户需求出发,不局限于传统的商品图谱,而是一个连接商品、用户、购物需求以及各类开放领域知识、常识的大规模语义网络。
基于此,阿里巴巴智能引擎事业群和清华大学计算机系知识工程实验室在全球月活跃用户人数和流量最大的电子商务平台手机淘宝(手淘)的推荐系统上,不断对第二代AI系统认知智能计算平台进行打磨和落地。该认知智能计算平台主要包括基础数据层、推理引擎层和用户交互层。其中基础数据层主要专注于(1)跨领域知识图谱的构建;(2)拉通跨域跨场景各类行为数据,例如浏览、点击、收藏、加购、转发等,全方位建模经济体内行为,差异化理解多模态行为数据背后的含义;(3)在意图感知的实时性与认知深度间做平衡,层次化地强化消费者理解。推理引擎层,依托多模态预训练进行全域召回,缓解马太效应,加强手淘生态建设;依托超大规模图神经网络系统进行消费者意图推理。用户交互层,基于用户交互的视觉智能和文本智能,通过短视频改变和引导购后消费者心智,理解消费者意图,助力消费者决策,同时填补目前学术界和企业界基于用户交互的弱监督内容理解方向的空白。
基础数据层
阿里巴巴生态里积累了海量的跨领域多模态物料(商品、短视频、直播等)数据(见图1),同时各品牌商、行业运营、治理运营、消费者、国家机构、物流商等多种角色参与其中,共同为这样一个庞大的多模态数据库做贡献。无论从知识产权保护角度,还是从提升消费者购物体验的角度,实现跨领域多模态数据的标准化(跨领域多模态规范的统一和跨领域多模态信息的确定性),以及内外部数据之间的深度互联,意义都非常重大。
知识图谱推理显性和隐性的代表方法分别是路径排序算法(Path Ranking Algorithm,PRA)和转移表示(Trans Embedding系列)。文献[2]提出了PRA算法,将路径作为特征,预测实体间是否存在指定关系。文献[3]提出了知识图谱关联规则挖掘算法(Association rule Mining under Incomplete Evidence,AMIE),挖掘传递性规则。
基于距离模型的表示推理方法是根据转移假设(将关系看成实体间的转移)设计得分函数,度量事实三元组的有效性分值。TransE是第一个基于距离的表示模型,主要思想是:如果三元组(头实体,关系,尾实体)成立,则头实体向量h与关系向量r之和与尾实体向量t相近,否则远离。TransE模型可以很好地处理一对一关系,但是在处理一对多、多对一和多对多等复杂关系时存在一些不足和缺陷。针对以上问题,研究者做出了一系列改进工作。文献[4]提出了TransR模型,在单独的实体空间和关系空间建立实体和关系的表示,每个关系对应一个空间,有一个映射矩阵,实体通过对应的映射矩阵映射到关系空间后,将关系向量看成实体向量间的转移,在一定程度上缓解了不能很好地处理多映射属性关系的问题。文献[5]提出的TransG模型是一种基于贝叶斯非参的高斯混合模型,第一次从产生式的角度看待知识图谱嵌入表示问题,解决了如何刻画三元组知识中关系的多语义表达问题。文献[6]提出了TKRL(Type-embodied Knowledge Representation Learning)学习知识图谱实体和关系的表示,将层级类型的信息用于映射矩阵、训练时选择负例和评估时过滤候选。文献[7]提出了TransE-NMM(TransE-Neighborhood Mixture Modeling),在TransE的基础上定义基于邻居的实体表示,引入邻居实体信息进行实体和关系的表示学习。文献[8]提出了TEKE(Text-Enhanced Knowledge Embedding),引入文本语料中丰富的上下文信息扩展知识图谱的语义结构,学习知识图谱中实体和关系的表示。文献[9]提出了新颖的时间感知知识图谱补全模型(Time-Aware Embedding,TAE),用三元组和时间信息预测知识图谱中的连接,即给定三元组中的两个元素与时间区间,预测另一个元素。
推理引擎层
推荐系统需要通过用户在系统中留下的“足迹”,对用户当下的认知状态进行猜测,从而提供合适的内容。用户的“足迹”是由人类的认知所驱动的。可以想象每一个用户背后都有一个符合认知理论的大脑,驱动着他/她在系统中的行为,例如接受信号和给予反馈。推荐系统能否通过用户的反馈来揣测甚至还原用户对于系统的认知状态,是非常有意思的问题。
传统表征学习算法得到的用户商品表征本身并不具备可解释性,往往只能提供用户-物料之间的注意力分数作为物料粒度的用户兴趣。学习解离化表征的原因和人类认知的捆绑问题(Binding Problem,BP)有关。我们关注这样的两个和认知相关的子任务:(1)商品在人的认知空间中是如何表征的,这样的表征是否具有可解释性,人在这个空间下的表征是否也具有这样的语义;(2)基于这样的表征,我们能否提出新型应用,并至少给出一种原型方案。
针对电商平台上用户行为的特点,我们的模型采用了层次化的设计:它在推理一个用户的表征时将依次进行宏观解离化(macro disentanglement)和微观解离化(micro disentanglement)。宏观解离化的启发一方面来自用户在综合类电商场景下较为分散的兴趣,另一方面来自人类的传统认知难题BP。首先,用户的兴趣通常是非常广泛的,一个用户的点击记录往往会涉及到多个独立的消费意图(比如点击不同大类下的商品)。另外,宏观解离化也是微观解离化的必要前提。因此,我们将用户的表征拆分成K个d维分量。我们希望能把用户在执行某个意图时的偏好进一步分解到更细的粒度。
宏观级别的用户偏好向量挖掘可以用任何带“聚类”功能的前向网络实现。为了优化这个深度概率模型,我们采纳了变分自动编码器(VAE)的框架。为了实现微观解离化,借鉴了beta-VAE[10]的方法,对KL惩罚项进行了加强(令beta远大于1)。这种做法将迫使表征的各个维度去捕捉比较独立的信息。
解离化表征在带来一定的可解释性的同时,也带来了一定的可控制性。这种可控制性有望给推荐系统引入一种全新的用户体验。比如说,既然表征的各个维度关联的是不同的商品属性,那么我们完全可以把用户的表征向量提供给用户,允许用户自行固定绝大部分维度(比如对应的是衣服的风格、价格、尺寸等),然后单独调整某个维度的取值(比如颜色对应的维度),系统再根据这个反馈调整推荐结果。这将帮助用户更加精准地表达并检索得到自己想要的商品。图2是我们在调控某个维度后检索得到的两批商品,可以看出这个被调控的维度和背包的颜色属性比较相关,并有较为明显的渐变性质。
用户交互层
基于用户交互的自然语言生成
自然语言处理中很多任务依然面临巨大的挑战,其中之一是如何实现基于用户交互的自然语言生成。用户交互信息繁多复杂,如何有效利用这类信息生成更加符合用户兴趣的文案是一个具有重大技术价值和业务价值的问题。
在阿里巴巴淘宝的推荐场景中,云主题便是一个需要自动化实现推荐理由生成的应用。云主题是由一系列商品所形成的主题场景。我们利用现有推荐系统中的召回(指从全量信息集合中触发尽可能多的正确结果)技术实现基于场景的商品聚合。然而面对繁多的主题,利用人工生成标题和推荐理由将消耗非常大量的人力物力。为此,我们利用自然语言生成技术实现了自动生成标题和推荐理由。这项工作主要有以下几个难点:(1)生成的文案需要符合语法,表达流畅通顺;(2)推荐理由的内容需要与商品属性相关,同时要符合商品相关的知识;(3)推荐场景下的文本生成要尽可能做到个性化。
为了提升生成质量和用户体验,我们引入了外部知识和个性化信息。针对每一个商品,当前的输入除了商品标题以外,还有与它对应的特征属性(如外观、质量等)。此外,算法使用了外部知识库CN-DBpedia,使得输入的商品和相关知识联系起来。我们设计了相应的KOBE模型(KnOwledge-Based pErsonalized text generation system,基于知识的个性化文本生成系统)。该模型建立在基于自注意力机制的transformer模型之上,图3展示了KOBE模型的基本框架。编码器由多层的自注意力层叠而成(一般为6层,如果要实现大模型的话可以增加层数)。
在Attribute Fusion模块中,算法引入个性化推荐相关特征属性,主要集中在两个方面:第一个是aspect,指的是产品的特定方面,比如外观、质量等;第二个是user category,即该产品匹配的用户群体,比如机械键盘对应的用户群体是科技爱好者等,算法利用Attribute Fusion模块将它们有机融合。
文本生成的另一个常见问题是缺乏信息量,算法设计了knowledge incorporation这一模块。模块中的知识编码器同样是一个基于自注意力机制的编码器,具体模型构造和上文所述编码器一致。为了实现商品标题表示和相关知识表示的有效结合,算法实现双向注意力机制,分为“标题到知识的注意力”和“知识到标题的注意力”。标题到知识的注意力能够获取和标题相关的知识,而知识到标题的注意力则获取和知识相关的标题内容。我们在春节云主题的项目中上线了KOBE模型,为每个类目提供相应的个性化推荐理由。可以看到生成的推荐理由表达流畅,能够根据类目和产品特点选择符合产品相关知识的描述,并且能够携带一些具有趣味性的表达(见图4)。[11]
多模态预训练实践
随着全球零售电商销售规模的快速增长,以及电商系统与用户交互形式日益多元化,电商系统理解和检索图片、视频等多模态内容的需求日益增强。面对深度多模态表征学习的需求,我们跟进多模态预训练的相关工作,设计了一套新的多模态预训练方法,学习更加高质量的多模态表征,并将其应用到电商推荐场景中,实现搜索query召回相关商品图片以及多模态商品召回等相关任务。尤其是在商品召回场景中,如何充分结合多模态特征和用户交互信息实现效果更优的推荐,是非常值得探索的课题。算法自研设计了一套多模态表征学习的框架InterBERT,见图5。
输入查询序列和商品图片物体序列,经过InterBERT模型的交互模块(interaction module)和独立模块(independence module)编码,最后预测查询与商品图是否匹配。多模态预训练主要从2019年开始有了比较大的进展,几项比较有代表性的工作都是参考了自然语言处理的预训练,将Transformer架构迁移到多模态预训练中,并做了相应的修改。多模态预训练的数据主要是图文对,如图片和它对应的描述(caption)。文本以词序列的形式作为输入,而图像则通过物体检测得到物体表示序列。在训练中,文本侧采用掩码语言模型(masked language modeling),而图像侧则借助检测得到的物体类别,采用掩码物体模型(masked object modeling),让模型观察上下文预测被掩盖的物体所属类别,并增加图文匹配(image-text pairing)的任务。
在模型架构方面,主要是单流(single-stream)模型和双流(two-stream)模型。单流模型直接将两种模态融合在一个模型中,交互更加充分,但每个模态的表示缺少自身独立性;双流模型每个模态具有良好的独立性,但是交互过程采用互注意力机制,每次只能看到另一个模态的信息而不能采集自身模态的上下文信息。参考了两类模型的优缺点,我们设计了一套结合两者优势的模型结构InterBERT,其中包括单流交互模块(single-stream interaction module),用于更好地跨模态交互,以及双流独立模块(two-stream independence module)来保持模态的独立性。具体实现如图5所示,输入的表征首先经过单流模型实现交互。在训练方法方面,我们也对训练任务做了一些改进,让模型建模图像物体和文本序列的能力更强,主要是提升图像区域建模和文本短语的建模。
在使用上述模型产出了多模态的特征之后,大模型可以迁移到具体的下游任务,如文本召回图片。相对于基线模型,多模态预训练模型在淘宝电商场景中的文本召回图片的任务在召回指标R@1、R@5和R@10上均能获得显著提升。而利用预训练模型产出的多模态特征也可以应用到推荐系统的商品召回任务中。我们使用丰富的电商商品文本和图片进行预训练,并对商品池中的每个商品产出多模态特征。这些高质量的多模态特征可以加入到推荐系统中的召回模型中,让召回模型通过多模态特征对用户行为建模。目前预训练产出特征做的召回在线上也取得了喜人的表现,在点击率没有显著下降的情况下,曝光和点击的商品热度能够大幅降低,让更多位于商品分布中腰部的商品得到曝光。[12]
基于用户交互的视觉智能
随着网络技术和大众传媒的发展,短视频和网络直播迈入了发展的快车道。在电子商务领域,买家秀视频具有数量大和个性化强的优势,因此,将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。
买家秀视频在视频推荐过程中缺少高质量的视频标题。通常,视频推荐会给视频配上一个精炼的标题,该标题可以让目标用户在观看视频前对视频的主要亮点、特色有一个初步把握,从而产生观看兴趣。在这种应用需求下,我们设计了买家秀视频标题自动生成模型,该模型从买家秀视频、买家撰写的评论和关联商品的属性信息等数据中抽取、关联和聚合有用的信息。图6展示了一个实际的数据样例。
买家秀视频标题生成任务的描述涉及商品细节特点识别、商品整体外观识别、商品与背景交互作用的识别(如“夏日海滩风情度假必备连衣裙”)和视频故事线主题识别(如“这样穿显瘦、美丽”)。买家秀视频标题生成在任务层面提出了更多和实际应用紧密相关的挑战;在现有模型层面,大部分视频描述模型将该任务看作序列到序列的建模任务,典型的是采用带有或不带有注意力机制(attention)的循环神经网络(RNN),同时对视频帧序列和输出的词序列建模。然而,这样的建模方式具有局限性:其一,他们只在视频帧级别建模了视频信息,这不利于商品部位及商品整体级别的特点识别,基于序列建模的RNN模型本身也较难对具有特殊依赖关系的商品不同部位建模;其二,序列建模的RNN模型无法系统、有效地关联和聚合三种异构信息,即视频、视频评论和关联商品的属性信息。
为了解决这些问题,我们提出了一个新的建模框架——基于图结构建模的视频标题生成器(Graph based Video Title Generator,Gavotte)。具体而言,Gavotte由两个子过程组成,即细粒度交互建模和故事线摘要建模。
Gavotte模型结构图
商品视频信息 我们首先使用了特征点检测(landmark detection)技术[13]检测衣服类商品的商品部位特征,每一帧的每一个部位都视为图节点。为了增强空间-时序视觉商品部位图的时序性和部位特点,我们给每一个节点都加上了位置嵌入(position embedding)[14]和类型嵌入(type embedding)。
视频评论信息 将评论中的每一个词作为图节点,并将有语法依赖关系的节点进行连接,发现相比于时序关系,捕捉评论中和商品有关的语义信息对生成标题更有价值。
关联商品的属性信息 将每一个属性值作为图节点,并对所有节点进行全连接,属性间本身没有时序关系,使用图建模可以更好地探索属性间的特殊交互作用。
如图7所示,细粒度交互建模对三个异构图的图内关系(intra-actions in graph)和图间关系(inter-actions across graphs)进行了建模。
图内关系建模注重和商品有关的细粒度特征的识别,我们采用了图神经网络作为图内关系建模的可训练框架结构。图间关系建模注重异构图之间商品有关细粒度特征的关联和聚合,为全局-局部聚合模块(Global-Local Aggregation,GLA)。GLA包含全局门控访问(global gated access)和局部注意(local attention)两个子模块(见图8)。GLA的输入为查询图(query graph)和上下文图(context graph),输出的聚合图(aggregated graph)的结构与查询图一致。
GLA模型结构图
故事线摘要建模关注帧级别和视频级别的信息,因此可以采用帧特征和RNN来进行序列建模。我们先利用全局-局部模块将细粒度信息和帧信息进行信息融合,再采用RNN对视频帧进行序列建模。在解码器部分,我们采用常用的注意力增强的RNN结构[15],在每一步解码阶段都会关注细粒度图信息和帧信息。
部分实验结果示例图
由表1可见,Gavotte模型在两个淘宝商品数据集(T-VTD服饰类商品数据和其他类别商品数据)上得到了最佳的效果。Gavotte模型在T-VTD上性能提升显著,在其他商品类别数据上提升会相对弱一些,但这是合理的结果,因为服饰类商品有良好的商品部位定义,我们在其他类别上采用了近似的方法。
图9展示了Gavotte生成了网络热词(如出街、抢镜),而且生成的句子更流畅,更有吸引力。同时,Gavotte可以识别商品细节级别信息(如破洞)、商品级别信息(如牛仔裤)、商品与背景交互信息(如出街抢镜)和视频级别故事情节信息(如这样穿)。[16]
结语和展望
人工智能1.0已经在感知计算方面取得了长足的进步,甚至在很多领域已经达到或超过了人类水准。对于需要外部知识、逻辑推理、领域迁移等与认知相关的任务,将成为人工智能2.0需要突破的核心问题。相比依赖数据规模和质量的感知智能,认知智能更需要的是机制设计,包括如何建立有效的机制来稳定获取和表达知识,如何让知识能够被所有模型理解和运用。认知智能将会从认知心理学、脑科学以及人类社会的发展历史中汲取更多的灵感,并结合扩领域知识图谱、因果推理、持续学习等研究领域的发展进行突破。
现代的推荐系统相比于传统的物货匹配复杂度、承载功能和需求等已得到全面升级,是大规模检测认知推理结果的理想场所。继深度学习的兴起,“千人千面”帮助手淘从大的超市升级成为每个消费者拥有自己的个性化的货架,但是对于消费者未来的需求推理还有欠缺。认知图谱有助于解决这个难题,希望为每位消费者个性化的货架旁边提供一个“AI导购员”,可以推理认知并且与消费者交互未来的需求。我们在全球月活用户和流量最大的电子商务平台手机淘宝的推荐系统上,不断打磨和落地第二代AI系统认知智能计算平台,抽象出基础数据层、推理引擎层和用户交互层,进行了初步尝试并获得了一定结果。我们相信,未来在认知推理技术的不断发展下,推荐系统最终会真正做到认知推荐。
脚注
1 参阅http://www.199it.com/archives/856125.html
参考文献
[1] 阿里巴巴达摩院. 达摩院2020十大科技趋势[OL].(2020-01-20). https://damo.alibaba.com/events/57.
[2] Lao N Cohen W W. Relational Retrieval Using a Combination of Path-Constrained Random Walks[J]. Machine Learning 2010 81(1):53-67.
[3] Galárraga L Teflioudi C Hose K et al. AMIE: Association rule mining under incomplete evidence in ontological knowledge bases[C]// International Conference on World Wide Web. ACM 2013:413-422.
[4] Lin Y Liu Z Sun M et al. Learning entity and relation embeddings for knowledge graph completion[C]//National Conference on Artificial Intelligence 2015: 2181-2187.
[5] Xiao H Huang M Hao Y et al. TransG: A Generative Mixture Model for Knowledge Graph Embedding[OL]. arXiv: Computation and Language 2015.
[6] Xie R Liu Z Sun M. Representation learning of knowledge graphs with hierarchical types[C]// IJCAI’16: Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. AAAI Press 2016: 2965-2971.
[7] Nguyen D Q Sirts K Qu L et al. Neighborhood Mixture Model for Knowledge Base Completion[C]//Conference on Computational Natural Language Learning. ACL 2016: 40-50.
[8] Wang Z Li J. Text-enhanced representation learning for knowledge graph[C]// IJCAI'16: Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. AAAI Press 2016: 1293-1299.
[9] Jiang T Liu T Ge T et al. Towards Time-Aware Knowledge Graph Completion[C]// Proceedings of COLING 2016 the 26th International Conference on Computational Linguistics. 2016: 1715-1724.
[10] Higgins I Matthey L et al. beta-VAE: Learning basic visual concepts with a constrained variational framework cite[C]//ICLR 2017.
[11] Chen Q Lin J Zhang Y et al. Towards knowledge-based personalized product description generation in E-commerce[C]// KDD’19: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM 2019.
[12] Lin J Yang A Zhang Y et al. InterBERT: An effective multi-modal pretraining approach via vision-and-language interaction[OL].(2020-05-30). https://arxiv.org/abs/2003.13198
[13] Liu Z Yan S Luo P et al. Fashion Landmark Detection in the Wild[C]// Computer Vision – ECCV 2016. ECCV 2016. Lecture Notes in Computer Science vol. 9906.Springer 2016:229-245
[14] Gehring J Auli M Grangier D et al. 2017. Convolutional sequence to sequence learning[C]// ICML’17: Proceedings of the 34th International Conference on Machine Learning. 2017:1243-1252.
[15] Yao L Torabi A Cho K et al. Describing Videos by Exploiting Temporal Structure[C]// ICCV '15: Proceedings of the 2015 IEEE International Conference on Computer Vision. IEEE CS 2015: 4507-4515.
[16] Zhang S Tan Z Yu J et al. Comprehensive Information Integration Modeling Framework for Video Titling[C]// Proceedings of the 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2020.
作者简介
杨红霞
CCF专业会员。阿里巴巴大数据资深算法专家,带领团队开发基于计算平台和搜索推荐的智能算法。2019世界人工智能大会最高奖项卓越人工智能引领者(SAIL奖)获得者,2020年杭州市领军型创新团队获得者。yang.yhx@alibaba-inc.com
周靖人
CCF专业会员。阿里巴巴集团资深副总裁,阿里达摩院智能计算实验室负责人,浙江大学兼职教授。负责阿里巴巴集团新零售智能引擎的产品技术研发。主要研究方向为人工智能、大规模分布式系统等。jingren.zhou@alibaba-inc.com。
特别声明:中国计算机学会(CCF)拥有《中国计算机学会通讯》(CCCF)所刊登内容的所有版权,未经CCF允许,不得转载本刊文字及照片,否则被视为侵权。对于侵权行为,CCF将追究其法律责任。