标贝在线语音合成(标贝科技李秀林)
标贝在线语音合成(标贝科技李秀林)(图片来源:标贝科技)李秀林:大家好,非常高兴通过搜狐科技与大家沟通语音合成的一个主题,那么今天我与大家分享的题目是“语音合成引爆智能语音交互的导火索”。以智能音箱为例,仅2018年四季度,全球智能音箱出货量增长95%达到3850万台,超过2017全年总量。2018年出货量更是达到8620万台,同比增长100%以上。Strategy Analytics预测,2019年全球智能音箱的出货量将超过1.34亿,到2024年将增加到2.8亿。搜狐科技“智研所”沙龙第6期邀请到标贝科技CTO李秀林进行主题演讲——《语音合成—引爆智能语音交互的导火索》以下是演讲精编:
编 | 搜狐科技 宋婉心
AIoT正在成为科技公司们争抢的下一座城池。
2016年开始,智能手机行业红利开始见顶,手机厂商可争夺的存量市场不断被压缩,这时,硬件领域的新机会延伸到了智能音箱、智能家电,以及可穿戴设备。智能硬件也相应地成为互联网的新入口,国内外多家巨头已早早开始争夺这部分还未被完全挖掘的用户入口。
其中,语音识别及语音交互毫无疑问是各智能硬件最重要的控制手段之一,同时也是人工智能技术到目前为止落地最快的应用之一。
以智能音箱为例,仅2018年四季度,全球智能音箱出货量增长95%达到3850万台,超过2017全年总量。2018年出货量更是达到8620万台,同比增长100%以上。Strategy Analytics预测,2019年全球智能音箱的出货量将超过1.34亿,到2024年将增加到2.8亿。
搜狐科技“智研所”沙龙第6期邀请到标贝科技CTO李秀林进行主题演讲——《语音合成—引爆智能语音交互的导火索》
以下是演讲精编:
李秀林:大家好,非常高兴通过搜狐科技与大家沟通语音合成的一个主题,那么今天我与大家分享的题目是“语音合成引爆智能语音交互的导火索”。
(图片来源:标贝科技)
从2016年开始,语音合成进入了一个非常特殊的时期,我们把它命名为自学习的阶段。那么这个阶段主要特点是利用神经网络的技术,通过复杂的神经网络模型去拟合声音的生成过程。
比如在2016年WaveNet提出,给我们提供了一个新的考虑语音合成的特点,之前的语音基本都是按帧或者按照音节或者音子合成的,在这个框架下实际是逐点预测,一个16k采样率的语音,每秒的语音需要对应16000次的复杂运算才能生成语音,但是它的音质大大改善,远远超出之前的系统。
接下来2017年有端到端的Tacotron的方法,直接文本输出语音,在这种模式下又让很多机器学习的研发人员加入到语音合成的领域,从而使得这个行业的发展更加快速。
在2018年端到端的基础上神经网络声码器大行其道,使得端到端加上神经网络声码器的方案受到广泛采纳。
从上述这三个主要的模型来看,整个的合成效果都是得到了很大的提升,它也为我们开拓了一些新的应用领域的可能。
总结一下,就是传统的语音合成方法,音库制作、整个的系统制作流程都很复杂,成本比较高,周期比较长,而且还有一些声音的不尽如人意的情况,但是神经网络的方法其实也不是尽善尽美,我们现在看到的是神经网络的方法需要大量的计算、大量的数据,这些在满足大量数据的情况下我们发现会有一些问题。
因为我们现在语音合成的数据基本是单个人去采集声音,但是单个人采集声音的量往往不会太大,可能几万句话就是一个非常大的数据库了。这种情况下我们发现它有些问题,所以我们提出一个解决的办法,我们是在端到端的基础上用它最核心的部分,也就是Attention的机制,整个系统我们不用端到端,希望文本的部分用文本的属性,语音的部分用语音的属性,这样的话我们可以充分利用我们文本的数据积累去改善整个合成效果。
同时,在真正落地的时候,GPU在生产环境下落地其实是有一定困难的,我们也做了针对性的优化,让它在CPU情况下能够进行高效的合成。我们所做的具体的就是把输入数据的纬度从数万维降低到数十维,我们对文本之前积累的数据模型进行了非常好的整合与神经网络的后端进行了一个适配,达到了一个比较好的效果。
接下来说一下产品技术体系,因为我们比较专注,做的主要是数据和语音合成,我们在技术层面把控好我们整个数据生产流程,从数据的设计、采集加工和质检,保证AI所需要的各项数据都是能够高质量对模型训练非常有价值,结合我们的算法、模型和架构我们将这些数据转换成可以直接落地的技术形态。
根据上面的技术和产品,我们实际上构造了三位一体的竞争优势,也就是依托我们的核心数据壁垒以及我们的声音超市、明星语音IP库等等。
这就是我们声音超市的一个界面,用户可以从这里面直接体验不同的声音,去选择自己所喜欢的音色。到目前为止,我们在合成方面已经积累了超过三千小时的合成数据库,合成数据库的录制加工其实是非常复杂,对发音人的音色、一致性、环境等等都会有非常高的要求,那么后期还需要有文本层面的声音层面的各种处理环节。
(图片来源:标贝科技)
现在语音条目已经超过了两百万条,定制库已经达到了两百多个,包括中文、英文、韩文等不同的语言,每种语言又有不同的风格不同的年龄特点。整体来说,在合成数据方面准确率可以达到99.5%的标注水平,在识别方面我们的量更大一些,准确率也能达到99%。
我们认为核心市场其实有五个,泛娱乐、智慧教育、智能客服、智能家居、有声读物,这五个方面目前我们也有诸多探索,也取得了一些比较好的成果。
语音合成我认为或者说我们标贝科技觉得现在走入一个新的阶段,在这个阶段不是说功能性的,功能性的时代已经过去了,语音合成功能并不稀奇,现在最主要的是说我们需要让用户有更多的可选择性,需要满足个性化的需求。