智能语音市场发展趋势:全球巨头先后入局
智能语音市场发展趋势:全球巨头先后入局1、与 Amazon Echo 千万量级 销量相比,国内科大讯飞与京东联合发布的叮咚音箱销量似乎逊色不止一筹。除了在技术和应用层 面可能存在的差异之外,各自根植的土壤环境也有着先天的差异。2、如果说播放音 乐是传统音箱的主要功能,那么对于智能音箱而言,这已经几乎成为附带选项,互相之间拼的不是、 或者说不只是音质问题,更多是人机交互的体验,以及交互背后所能支撑和兼容的服务数量与质量。2、对于用户而言,需要的 是能够将众多繁杂的应用和接口进行封装的工具,不再需要自己主动到每一个具体应用上获取服务, 而是借助语音交互统一的入口提供。3、对于巨头公司而言,目的在于借此获得移动互联网之后一 个能够获取用户数据并持续提供服务的入口。1、抛开智能音箱的设定, 其本质是一款基于语音进行人机交互的智能硬件,在算法层面涉及到降噪、远场识别、唤醒与打断 以及多轮会话、语义分析等自然语言理解技术,硬件层面主要涉及
智能音箱是台面上的狂欢,本质还在用户、数据和服务自 2014 年 11 月 Amazon 推出收款基于语音交互的智能音箱 Echo 以来,2015 年科大讯飞发布智 能音箱叮咚,2016 年谷歌发布智能音箱 Google Home,而进入 2017 年以后更是密集,5 月联想 发布智能音箱,Amazon 发布带触屏的 Echo Show,微软联手音频设备制造商哈曼〃卡顿合作打 造 Invoke,6 月苹果发布 HomePod。同时国内 BAT 等互联网巨头也纷纷有意入局。
乐晴智库,行业深度研究(乐晴智库)
行业精选报告下载:乐晴智库网站 www.767stock.com
1、其实基于语音交互技术的 入口产品可以是音箱、电视等家居产品,甚至可以是室内可及的智能设备,之所以选择音箱作为突 破口,只不过看重这样一款在初期能承担除交互之外其他功能的载体。
2、对于用户而言,需要的 是能够将众多繁杂的应用和接口进行封装的工具,不再需要自己主动到每一个具体应用上获取服务, 而是借助语音交互统一的入口提供。
3、对于巨头公司而言,目的在于借此获得移动互联网之后一 个能够获取用户数据并持续提供服务的入口。
1、抛开智能音箱的设定, 其本质是一款基于语音进行人机交互的智能硬件,在算法层面涉及到降噪、远场识别、唤醒与打断 以及多轮会话、语义分析等自然语言理解技术,硬件层面主要涉及到进行声音采集的麦克风阵列技 术以及声音播放时扬声器处理。软硬件的协同配合方能使得人机交互更为自然。
2、如果说播放音 乐是传统音箱的主要功能,那么对于智能音箱而言,这已经几乎成为附带选项,互相之间拼的不是、 或者说不只是音质问题,更多是人机交互的体验,以及交互背后所能支撑和兼容的服务数量与质量。
1、与 Amazon Echo 千万量级 销量相比,国内科大讯飞与京东联合发布的叮咚音箱销量似乎逊色不止一筹。除了在技术和应用层 面可能存在的差异之外,各自根植的土壤环境也有着先天的差异。
2、若去掉“智能”的概念,智 能音箱首先是个音箱,与欧美超过 85%的家庭音箱普及率相比,国内甚至不足 20%,在对音乐以 及音箱设备的需求观念上的差异导致音箱对欧美人群或许是“生活刚需”,而对国内用户或许目前 还只是少部分人的爱好。
3、正如前文所述,音箱只是恰好成为载体之一,最核心的依然是物联网 时代智能终端的人机交互入口。
互联网 PC 时代人机交互主要依赖鼠标和键盘,移动互联网时代触摸屏交互成为标配,那么人工智 能时代的交互会由哪种方式主宰?基于语音控制的智能音箱还是智能电视?这些或许有可能成为 智能家居入口,但即便 Amazon Echo 已然达到千万级销量及超过 1 万项技能点,似乎也不足以成 为人工智能时代交互入口的产品担当。
语音或许是人机交互的阶段性成果,基于语音的人机交互或许会成为某个特定场景的入口,但语音 与肢体动作的融合或许更可能担当得起一个时代的交互入口,至于更为遥远的未来,或许会有类似 脑电波等其他方式。
智能语音主要研究人机之间语音信息的处理和反馈问题,从表现形式来看,即研究如何通过语音实
现人机交互,相关支撑技术主要可划分为基础语音技术、智能化技术以及大数据技术。
语音识别准确率在引入深度学习之后得到快速提升。语音目标在于使机器最终能够将识别语音中的 内容、说话人、语种等信息。在技术思路经历了基于标准模板匹配和基于统计模型(HMM)两个阶 段;2010 年开始由微软的俞栋、邓力等与 Hinton 合作,在语音识别领域引入深度学习替换传统的 特征提取,随着深度学习的引入以及在此基础上派生的各类模型的组合,语音识别准确率大幅提升。
2017 年 3 月 IBM 通过长短时记忆、WaveNet 语言模型和三个强声学模型的组合,在 Switchboard数据集上电话语音识别错误率降低到 5.5%,无论是对比微软 2016 年测试结果给出的人类速记员5.9%错误率还是此次 IBM 给出的人类 5.1%,机器都已经极为接近人类水平。
语音合成已有 200 多年悠久历史,表现力尚有待继续提升。在计算机技术出现之前主要模仿人体 发声原理制作相应硬件,计算机技术出现后音质、音色和自然度都有提升。随着技术演进,语音合 成的复杂度、自然度和音质都已取得不错的成绩,目前研究重点在于提高合成音的表现力,如语气 和情感等。
市场规模快速扩大,且国内增速显著超过全球
在移动互联网、大数据、云计算、深度学习等技术的发展推动下,智能语音技术渐趋成熟,行业发 展进入场景应用布局阶段。移动互联网、智能家居、汽车、医疗、教育等领域的应用带动智能语音 产业规模持续快速增长。2015 年全球智能语音市场规模达 62.1 亿美元,同比增长 34.2%。中国智 能语音产业市场规模也逐步扩大,2015 年 40.3 亿元产业规模约占全球市场份额 10%,且增速显 著高于全球市场,预计至 2017 年份额占比将提升到 14%。
各要素齐发力,推动智能语音形成完整产业链借用我们前序报告中提出的人工智能商业化应用“人机料法环”模型,智能语音产业在人才储备、计算设施、数据积累、技术算法以及应用场景等五要素共同推动下已形成较为完整的产业链。
从产业链角度,智能语音行业可分为四个部分。1、基础研究机构:语音合成、语音识别、声纹识 别等基础技术的研发和技术输出;2、语音语义数据提供商:为算法研究或技术输出机构提供语音、 语义数据库以及定制化的数据采集和处理;3、语音技术提供商:将基础技术转换为软件或行业整 体解决方案,提供嵌入式或平台式的语音软件服务、行业智能语音系统整体解决方案;4、智能语 音应用提供商:智能移动设备、智能车载系统、智能家居等智能终端厂商,以及输入法、娱乐等各 类 APP 或软件客户端等,从产品属性来看主要包括消费级产品和专业级行业应用。
1、基础研究机构:语音合成、语音识别、声纹识 别等基础技术的研发和技术输出;
2、语音语义数据提供商:为算法研究或技术输出机构提供语音、 语义数据库以及定制化的数据采集和处理;
3、语音技术提供商:将基础技术转换为软件或行业整 体解决方案,提供嵌入式或平台式的语音软件服务、行业智能语音系统整体解决方案;
4、智能语 音应用提供商:智能移动设备、智能车载系统、智能家居等智能终端厂商,以及输入法、娱乐等各 类 APP 或软件客户端等,从产品属性来看主要包括消费级产品和专业级行业应用。
随着深度学习的引入和发展,智能语音的算法红利正逐渐消失。
1、Nuance 自 2005 年与 ScanSoft合并后,成为全球最大的语音技术厂商,凭借自身先进的语音识别、自然语言理解技术以及优秀的 语音解决方案在 2012 年全球语音市场中占据 62%,加上谷歌、微软合计占据超过 85%。
2、2010年深度学习首次引入语音识别,随后配合计算能力的提升和海量语音语料数据的积累,识别准确率 得到大幅提升。尽管 2015 年 Nuance 全球市场份额仍居第一,但已大幅下降至 31.6%,而谷歌、 苹果、微软及科大讯飞市场份额增长较快,分别达到 28.4%、15.4%、8.1%和 4.5%。3、科技巨 头对于深度学习算法及机器学习框架的开源使得智能语音技术的调用变得更为简单,模块化的设计 使得应用部署与实施门槛显著降低。
目前中国智能语音市场被科大讯飞、百度和苹果占据绝大多数市场份额,2015 年三家合计达 79%。 其中,科大讯飞市场份额为 44.2%,处于市场领先地位。百度进入势头强劲,市场份额增长快速, 美国权威杂志《麻省理工科技评论》公布的 2016 年十大突破技术,百度硅谷的 Deep Speech2 智 能语音技术赫然在列。谷歌、微软、苹果、百度等互联网巨头在资金、数据和 2C 应用用户拓展三 方面优势明显,各方强势介入将使得全球智能语音行业由一家独大演变成多方参与竞争的格局。
2010 年开始,互联网巨头纷纷通过自主研发或者并购/参股的方式深入布局智能语音产业。在智能 语音上的布局重点围绕虚拟助手,并且为占据一定的市场先机,纷纷开始布局智能车载、智能家具、 智能医疗、可穿戴设备等细分市场。
由于语音信号的多样性和复杂性,在真实使用场景中,考虑到空间距离、背景噪音、其他人声干扰、 回声、方言、口音等问题,准确率会大打折扣。提高现实场景中的用户体验是智能语音技术完成质 的突破的关键,涉及技术包括远场语音识别、唤醒目标检测、全双工交互、个性化识别技术等。2016 年 10 月 intel 与科大讯飞宣布合作共同研发 AI 芯片,将麦克风阵列、远场语音识别等功能集 成到 SOC 当中,形成完整的远场语音交互链条。
智能语音的应用前景巨头抢滩虚拟语音助手,并逐渐切入场景应用
语音交互的特点是简单、快速、解放双手和眼睛,在很多场景能够给用户带来巨大的体验优化。例 如:1、避免繁琐操作:手机众多 APP 中直接用语音进入一个应用。2、很小或没有屏幕:智能 电视中用语音直接打开特定节目替代操作不便的遥控器、通过智能穿戴设备访问互联网。3、手眼 无暇顾及:如开车过程、会议记录。4、发掘语音数据的价值:如利用电子病历语音数据辅助诊疗。
互联网女皇 Mary Meeker 在《2016 年互联网趋势》中指出,语音交互将成为人机交互的新范式。 而事实上随着智能语音技术的逐渐成熟以及自然语言理解的发展,语音已经成为不同场景下人与智 能设备之间交互的重要手段。
巨头纷纷以虚拟语音助手切入智能语音应用场景。由于物联网涉及太多领域,跨平台、跨设备、跨 品牌等诸多因素制约产业发展,统一标准是物联网行业发展的基础,在此逻辑基础上谷歌、微软、 亚马逊等科技巨头纷纷以智能虚拟助手作为切入口,打造开放平台、以开源形式吸引开发者构建应 用开发生态。
消费级产品应用场景消费级市场智能虚拟助手的功能是基于语音交互实现设备控制、日程管理、信息查询、生活服务、 情感陪伴等。一方面可以通过开放平台接入第三方应用和服务丰富智能虚拟助手的功能,目前手机
虚拟助手正是通过连接各类 APP 征服终端,另一方面可植入智能硬件终端,向汽车、家居、可穿 戴设备等产品延伸,建立消费级智能语音产品的生态体系。
智能语音 车载
开车时双手和双眼被占用,语音交互成为该场景下最合适的交互方式。智能语音与汽车的结合主要 为智能车载产品,通过语音完成导航、音乐搜索与播放、信息听写等。随着车联网的发展,未来将 跟社交、娱乐、餐饮等服务进一步结合,在保证安全的前提下提升驾乘体验。腾讯汽车等相关调研 机构的数据显示智能车载系统的迭代更新过程中,语音交互的作用和重要性已经越来越得到车主的 认可。IMS Research 预计到 2019 年全球将有 55%的新车搭载智能语音系统。
在智能车载领域,Nuance、苹果、谷歌、科大讯飞、百度等语音识别巨头分别推出 Dragon Drive车载语音开发平台、CarPlay、AndroidAuto、汽车语点系统、CarLife 等智能车载系统,并纷纷与 汽车厂商达成合作,抢占智能车载新兴市场。
智能家居产业处于快速发展期,语音控制逐渐成为常见技能点。1、智能语音可以跟电视、音响、 空调、窗帘、灯具、玩具等各种家用设备和智能家居控制中枢系统相结合,通过语音交互实现一个 入口控制全部功能。2、大数据及人工智能技术的推动、关键技术与部件成本的下降以及产业联盟 标准化协议的建立带来智能家居市场规模的快速增长。3、Statista 研究数据显示,2016 年全球 智能家居市场规模已经达到 168 亿美元,其中中国市场占 7 %,预计到 2021 年全球智能家居市场 规模将达到 793 亿美元,中国市场份额上升至 17%。
国外互联网巨头纷纷以智能家居产品与智能语音相结合的方式进入智能家居领域。苹果于 2014 年 推出 HomeKit 智能家居平台,并与 Siri 不断加强融合。亚马逊 2014 年推出的搭载 Alexa 的 Echo智能音箱,通过语音可以实现播放音乐、新闻、网购下单、Uber 叫车、定外卖等任务,根据 CIRP、RBC Capital Market 等公司的估计,自 2014 年发售以来,Echo 系列产品(Echo、Amazon Tap、Amazon Dot)累计销售量接近一千万台,销售额达到 8-10 亿美元。2016 年谷歌推出 Google Home智能音箱,搭载 Google Assistant 虚拟助手,积极强化 Google Assistant 在智能家居领域的布局。 从互联网巨头的布局可以看出智能语音与智能家居的融合是大势所趋。
数据来源:statista,东方证券研究所
国外互联网巨头纷纷以智能家居产品与智能语音相结合的方式进入智能家居领域。苹果于 2014 年 推出 HomeKit 智能家居平台,并与 Siri 不断加强融合。亚马逊 2014 年推出的搭载 Alexa 的 Echo智能音箱,通过语音可以实现播放音乐、新闻、网购下单、Uber 叫车、定外卖等任务,根据 CIRP、RBC Capital Market 等公司的估计,自 2014 年发售以来,Echo 系列产品(Echo、Amazon Tap、Amazon Dot)累计销售量接近一千万台,销售额达到 8-10 亿美元。2016 年谷歌推出 Google Home智能音箱,搭载 Google Assistant 虚拟助手,积极强化 Google Assistant 在智能家居领域的布局。 从互联网巨头的布局可以看出智能语音与智能家居的融合是大势所趋。
智能语音 可穿戴设备可穿戴设备受硬件形态的约束,语音交互方式相比触摸交互方式具有显著优势。智能语音技术的引 入可将设备从智能手机上解放出来,创造独立体验。例如出门问问 Ticwear 内臵贴片式 SIM 芯片 与 3G 通讯模块,拥有独立通讯号码并可实现实时在线,支持包括语音拨号、短信、拍照,微信语 音回复,语音搜索等功能在内的全中文语音交互。
专业级市场虚拟助手适用于多种应用场景,从实现功能来看主要形式有语音识别转写以及语音、语 义内容的分析,以医疗、教育和客服三个领域为例,语音技术与场景的深度融合将为技术壁垒构建 应用端的护城河。
智能语音 医疗智能语音在医疗行业的应用主要有三种:1、语音导诊机器人;2、电子病历语音录入与转写、临 床报告语音录入与转写。语音录入大大提高医生工作效率和工作质量;患者能够通过语音电子病历 系统下载打印,能够拥有完整、清晰易懂的病历;医院可以科学管理诊疗过程和诊疗信息。3、随 着语音病历的积累,利用大数据技术和深度学习技术能够挖掘医学案例语音资料的价值,实现智能 辅助诊疗。
智能语音 教育智能语音在教育上的应用主要围绕教育体系下“学、练、测、评”等核心需求,主要产品有智能语 音训练与评测、互动教学等。作为国内智能语音在教育方面的应用先行者,科大讯飞已经将智能语 音技术应用在口语训练与考试、互动教学以及儿童早教智能硬件等产品,而基于语音基础上拓展开 的语义分析技术则开始逐渐应用于主观题评阅等环节。
行业精选报告下载:乐晴智库网站 www.767stock.com
乐晴智库,行业深度研究
乐晴智库
个人lqzk777
新浪微博:乐晴智库