快捷搜索:  汽车  科技

语音合成技术有了怎样的进步(语音合成未来发展会如何)

语音合成技术有了怎样的进步(语音合成未来发展会如何)介绍标准Bay技术,一家专注于智能语音合成和数据服务的人工智能公司。该公司依靠自己的高质量数据开发自己的高质量语音合成系统。我们可以提供多场景、多类别的高质量语音合成解决方案,在我们的解决方案中,我们将结合用户的需求和我们的技术来定制他们需要的语音。首先,我想自我介绍一下。我叫李秀林,中国科学院声学研究所博士,标准湾技术联合创始人兼首席技术官,负责整个语音技术框架。在过去的十年左右,我基本上是在语音行业。在此之前,在百度和Droplet,我主要从事语音相关的研究,并探索了在旅游互联网行业的不同应用。搜狐科技“智力研究院”6号沙龙邀请标准湾科技首席技术官李秀林做主旨演讲。--语音合成-智能语音交互的融合_______以下是演讲版:李秀林:大家好。我很高兴通过搜狐技术与大家就语音合成的话题进行交流。所以今天我与大家分享“语音合成引爆智能语音交互的导火索”的主题。

AIOT正在成为科技公司的下一场战斗。

从2016年开始,智能手机行业的股息开始达到峰值,手机制造商的竞争性股票市场不断受到压缩。此时,硬件领域的新机遇扩展到智能扬声器、智能电器和可穿戴设备。智能硬件也因此成为互联网的新入口。国内外许多巨头已经开始争夺这部分尚未完全挖掘出来的用户入口。

其中语音识别和语音交互无疑是智能硬件最重要的控制手段之一,也是目前人工智能技术最快的落地应用之一。

以智能扬声器为例。仅在2018年第四季度,全球智能扬声器出货量就增长了95%,达到3850万台,超过了2017年的总量。2018年出货量8620万台,同比增长100%以上。Strategy Analytics预测,2019年全球智能音箱出货量将超过1.34亿台,2024年将增至2.8亿台。

搜狐科技“智力研究院”6号沙龙邀请标准湾科技首席技术官李秀林做主旨演讲。--语音合成-智能语音交互的融合_______

以下是演讲版:

李秀林:大家好。我很高兴通过搜狐技术与大家就语音合成的话题进行交流。所以今天我与大家分享“语音合成引爆智能语音交互的导火索”的主题。

语音合成技术有了怎样的进步(语音合成未来发展会如何)(1)

首先,我想自我介绍一下。我叫李秀林,中国科学院声学研究所博士,标准湾技术联合创始人兼首席技术官,负责整个语音技术框架。在过去的十年左右,我基本上是在语音行业。在此之前,在百度和Droplet,我主要从事语音相关的研究,并探索了在旅游互联网行业的不同应用。

介绍标准Bay技术,一家专注于智能语音合成和数据服务的人工智能公司。该公司依靠自己的高质量数据开发自己的高质量语音合成系统。我们可以提供多场景、多类别的高质量语音合成解决方案,在我们的解决方案中,我们将结合用户的需求和我们的技术来定制他们需要的语音。

让我们看看整个语音交互市场。根据未来经济学家的数据,近年来语音产业发展迅速。2019年中国智能语音市场规模将超过200亿元,预计2023年将达到600亿元。这个市场发展很快,也从一个侧面反映了语音产业的普及程度。语音交互由三个主要环节组成,一个是语音合成,另一个是语音识别,因此连接是语义理解。通过这三项技术,我们可以使我们的硬件设备具有听、说、想、与人互动的能力,满足一些真实的场景,实现人工智能技术的真正落地。

你可以从样本声音中听到。事实上,我们提供不同的声音,有不同的特点。我们可以为用户匹配不同的声音。这是我们近年来所做的。

这是另一个例子。我们为中央电视台财经频道的工作提供了两种声音。其中一个是交易期间的小鲸智能机器人。事实上,它应该是一个孩子的形象从它的形象。它可能更活泼。我们根据这个产品的特点定制了一个。孩子的声音。另外,主持人的声音或她的时间是非常有限的,我们专门为著名主持人李玉林创造了自己的声音,这也是一款相应的在线产品。

通过这些演示,我们想说明,随着技术的发展,语音合成越来越好,它在交互过程中的作用也越来越重要。所以我们说“没有合成,没有相互作用”。语音合成是信息的载体。所有机器反馈信息将通过语音显示反馈给用户。

另外,我们可以提供多种形式的表现,使声音不再僵硬,不再僵硬,变得非常灵活,可以有多种形式的表现。就效果而言,它更接近真实的人,这让人觉得很难判断它是否真实。因此,通过这种即时响应,语音交互变得更加即时,体验也更好。

接下来,简要回顾了语音合成技术的发展。在20世纪80年代,需要演奏类似钢琴的设备来合成某些声音。自20世纪80年代以来,语音可以通过计算机技术进行编码,并通过共振峰合成进行合成。20世纪90年代以来,计算机技术的发展越来越迅速。通过大量的运算和存储,可以进一步提高语音合成的效果,并达到一定的商业化可能性。最近,我们发现它已经进入了一个自我学习阶段,这将使语音合成得到更广泛的应用,并将在后面进行解释。

首先,在运行阶段,将整个网络划分为几个模块。从图中可以看出,我们需要提取文本信息、基谱和其他特征来训练模型。在这一阶段,最重要的计算特性是基于一些模型的统计特性,包括语音码可复制模型、高音距模型等。在这些模型的指导下,一个常见的商业系统是马赛克合成系统,它将原始记录切割成非常小的片段,并在合成阶段有效地拼接这些片段。其优点之一是合成语音更接近真实色调,但也有缺点。显然,由于声音库不能很大,声音库的生产周期长且价格昂贵,所以拼接语音的特点往往是好的地方,有些地方不好让人感到不舒服,而且拼接不顺。

语音合成技术有了怎样的进步(语音合成未来发展会如何)(2)

自2016年以来,语音合成进入了一个非常特殊的时期。我们称之为自我学习阶段。然后,本阶段的主要特点是利用神经网络技术,通过复杂的神经网络模型来拟合发声过程。

例如,wavenet于2016年提出,这为我们提供了一个考虑语音合成的新特性。先前的语音基本上是由帧、音节或音素合成的。在这个框架中,它实际上是逐点预测。一个16-K采样率的语音需要每秒16000个复杂的操作来生成。语音生成,但其音质大大提高,远远超出了以前的系统。

然后在2017年,将有一个端到端的塔科隆方法直接从文本输出声音。在这种模式下,许多机器学习研究者将加入语音合成领域,使这个行业的发展更加迅速。

在2018年端到端的基础上,神经网络声码器流行,使得端到端加神经网络声码器方案得到广泛采用。

从以上三个主要模型出发,综合效果得到了很大的提高,也为我们开拓了一些新的应用领域。

综上所述,这是传统的语音合成方法。声库及整个系统的生产过程非常复杂,成本较高,周期较长,存在着一些不满意的声音。但神经网络的方法并不完善。我们现在看到的是神经网络的一面。这个方法需要大量的计算和数据。我们发现,当我们满足大量数据时,存在一些问题。

因为现在语音合成的数据基本上是由一个人收集的,但是一个人收集的语音量往往不太大,可能数万个词是一个非常大的数据库。在这种情况下,我们发现它存在一些问题,因此我们提出了解决方案。我们使用关注机制,这是系统在端到端基础上的核心部分。我们不需要端到端的机制。我们希望文本的一部分将使用文本的属性,而语音的一部分将使用语音的属性。然后我们可以充分利用文本的数据积累来提高整体的综合效果。

同时,GPU在实际着陆时很难在生产环境中着陆。我们还进行了有针对性的优化,以使它能够在CPU环境中高效地合成。我们所做的就是将输入数据的纬度从几万降到几万。我们对文本之前积累的数据模型进行了很好的集成,并将其应用到神经网络的后端,以达到更好的效果。

接下来,我们将讨论产品技术系统,因为我们更加关注。我们主要做的是数据和语音合成。我们在技术层面控制整个数据生产过程。从数据设计、数据采集、处理和质量检验等方面,我们可以保证人工智能所需的所有数据对模型培训都有很大的价值。结合我们的算法、模型和架构,我们转换这些数据。这是一种可以直接降落的技术形式。

语音合成技术有了怎样的进步(语音合成未来发展会如何)(3)

在上述技术和产品的基础上,我们真正构建了一个三重竞争优势,即依托我们的核心数据屏障和我们的语音超市、星语音IP库等。

这是我们的语音超市的一个界面,用户可以从中直接体验不同的声音,选择他们喜欢的音色。到目前为止,我们已经积累了超过3000小时的合成数据库。合成数据库的记录和处理非常复杂。对扬声器的音色、一致性、环境等都有很高的要求。在后面的阶段中,在文本级别将有各种处理链接。

语音合成技术有了怎样的进步(语音合成未来发展会如何)(4)

现在有超过200万个语音条目和200多个自定义库,包括中文、英文、韩语和其他不同语言。每种语言都有不同的风格和年龄特征。总的来说,合成数据的准确度可以达到标签水平的99.5%。在识别上,我们有更大的数量,而且准确度也可以达到99%。

我们相信有五个核心市场,即泛娱乐、智能教育、智能客户服务、智能家居和有声图书。目前,我们在这五个领域进行了许多探索,取得了一些良好的成果。

语音合成我认为或者说我们标贝科技觉得现在走入一个新的阶段,在这个阶段不是说功能性的,功能性的时代已经过去了,语音合成功能并不稀奇,现在最主要的是说我们需要让用户有更多的可选择性,需要满足个性化的需求。

猜您喜欢: