人工智能语音识别可以用来做什么(人工智能发展概况)
人工智能语音识别可以用来做什么(人工智能发展概况)语音识别的研究工作可以追溯到20世纪50年代。在 1952 年,AT&T贝尔研究所的 Davis,Biddulph 和 Balashek 研究成功了世界上第一个语音识别系统 Audry 系统,可以识别10个英文数字发音。这个系统识别的是一个人说出的孤立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。1956 年,在 RCA 实验室,Olson 和 Belar 研制了可以识别一个说话人的10个单音节的系统, 它同样依赖于元音带的谱的测量。1959 年,英国的 Fry 和 Denes 研制了一个能 够识别4个元音和9个辅音的识别器,他们采用了谱分析仪和模式匹配器。所不 同的是他们对音素的序列做了限制(相当于现在的语法规则),以此来增加字识别的准确率。但当时存在的问题是的理论水平不够,都没有取得非常明显的成功。2 语音识别发展历史实际上,语音识别也是一种模式识别,其基本结构如下图所示。
语音识别1 语音识别概念
语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容, 使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等。
资料来源:公开网络
语音识别首先要对采集的语音信号进行预处理,然后利用相关的语音信号处理方法计算语音的声学参数,提取相应的特征参数,最后根据提取的特征参数进行语音识别。总体上,语音识别包含两个阶段:第一个阶段是学习和训练,即提取语音库中语音样本的特征参数作为训练数据,合理设置模型参数的初始值,对模型各个参数进行重估,使识别系统具有最佳的识别效果;第二个阶段就是识别, 将待识别语音信号的特征根据一定的准则与训练好的模板库进行比较,最后通过一定的识别算法得出识别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择都有直接的关系。
实际上,语音识别也是一种模式识别,其基本结构如下图所示。和一般模式识别过程相同,语音识别包括如图所示3个基本部分。实际上,由于语音信息的复杂性以及语音内容的丰富性,语音识别系统要比模式识别系统复杂的多。
语音识别系统框架
其中,预处理主要是对输入语音信号进行预加重和分段加窗等处理,并滤除其中的不重要信息及背景噪声等,然后进行端点检测,以确定有效的语音段。特征参数提取是将反映信号特征的关键信息提取出来,以此降低维数减小计算量,用于后续处理,这相当于一种信息压缩。之后进行特征参数提取,用于语音训练和识别。常用的特征参数有基于时域的幅度、过零率、能量以及基于频域的线性预测倒谱系数、Mel 倒谱系数等。
2 语音识别发展历史
语音识别的研究工作可以追溯到20世纪50年代。在 1952 年,AT&T贝尔研究所的 Davis,Biddulph 和 Balashek 研究成功了世界上第一个语音识别系统 Audry 系统,可以识别10个英文数字发音。这个系统识别的是一个人说出的孤立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。1956 年,在 RCA 实验室,Olson 和 Belar 研制了可以识别一个说话人的10个单音节的系统, 它同样依赖于元音带的谱的测量。1959 年,英国的 Fry 和 Denes 研制了一个能 够识别4个元音和9个辅音的识别器,他们采用了谱分析仪和模式匹配器。所不 同的是他们对音素的序列做了限制(相当于现在的语法规则),以此来增加字识别的准确率。但当时存在的问题是的理论水平不够,都没有取得非常明显的成功。
60 年代,计算机的应用推动了语音识别技术的发展,使用了电子计算机进 行语音识别,提出了一系列语音识别技术的新理论—动态规划线性预测分析技术, 较好的解决了语音信号产生的模型问题。该理论主要有三项研究成果。首先是美国新泽西州普林斯顿 RCA 实验室的 Martin 和他的同事提出一种基本的时间归一 化方法,这种方法有效的解决了语音事件时间尺度的非均匀性,能可靠的检测到语音的起始点和终止点,有效地解决了识别结果的可变性。其次,苏联的 Vintsyuk 提出了用动态规划的方法将两段语音的时间对齐的方法,这实际上是动态时间规 整(Dynamic Time Warping)方法的最早版本,尽管到了80年代才为外界知晓。 第三个是卡耐基梅隆大学的 Reddy 采用的是音素的动态跟踪的方法,开始了连续语音识别的研究工作,为后来的获得巨大成功的连续语音识别奠定了基础。
70 年代,语音识别研究取得了重大的具有里程碑意义的成果,伴随着自然语言理解的研究以及微电子技术的发展,语音识别领域取得了突破性进展。这一时期的语音识别方法基本上是采用传统的模式识别策略。其中苏联的 Velichko 和 Zagoruyko 的研究为模式识别应用于语音识别这一领域奠定了基础;日本的迫江和千叶的研究则展示了如何利用动态规划技术在待识语音模式与标准语音模式语音识别之间进行非线性时间匹配的方法;日本的板仓的研究则提出了如何将线性预测分析技术加以扩展,使之用于语音信号的特征抽取的方法。同时,这个时期还提出了矢量量化和隐马尔可夫模型理论。
80 年代,语音识别研究进一步走向深入。这一时期所取得的重大进展有:
(1)隐马尔科夫模型(HMM)技术的成熟和不断完善,并最终成为语音识别的 主流方法。
(2)以知识为基础的语音识别的研究日益受到重视。在进行连续语音识别的时候,除了识别声学信息外,更多地利用各种语言知识,诸如构词、句法、语义、对话背景等方面的知识来帮助进一步对语音识别和理解。同时在语音识别研究领域,还产生了基于统计概率的语言模型。
(3)人工神经网络(ANN) 在语音识别中的应用研究的兴起。ANN 具有较好的区分复杂分类边界的能力, 显然它十分有助于模式识别。在这些研究中,大部分采用基于反向传播算法(BP 算法)的多层感知网络。
20 世纪 90 年代,语音识别技术逐渐走向实用化,在建立模型、提取和优化特征参数方面取得了突破性的进展,使系统具有更好的自适应性。许多发达国家和著名公司都投入大量资金用以开发和研究实用化的语音识别产品,从而许多具有代表性的产品问世。比如 IBM 公司研发的汉语 ViaVoice 系统,以及 Dragon 公司研发的 DragonDictate 系统,都具有说话人自适应能力,能在用户使用过程中不断提高识别率。
21 世纪之后,深度学习技术极大的促进了语音识别技术的进步,识别精度大大提高,应用得到广泛发展。2009 年,Hinton 将深度神经网络(DNN)应用于语音的声学建模,在 TIMIT 上获得了当时最好的结果。2011 年底,微软研究院的俞栋、邓力又把 DNN 技术应用在了大词汇量连续语音识别任务上,大大降 低了语音识别错误率。从此语音识别进入 DNN-HMM 时代。DNN 带来的好处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序结构信息,使得对于状态的分类概率有了明显提升。同时 DNN 还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。
目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。例如,现今流行的手机语音助手,就是将语音识别技术应用到智能手机中,能够实现人与手机的智能对话功能。其中包括美国苹果公司的 Siri 语音助手,智能 360 语音助手,百度语音助手等。
3 人才概况
全球人才分布
学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为语音识别领域全球学者分布情况:
语音识别全球学者分布
地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;亚洲也有较多的人才分布,主要在我国东部及日韩地区;欧洲的人才主要集中在欧洲中西部;其他诸如非洲、南美洲等地区的学者非常稀少;语音识别领域的人才 分布与各地区的科技、经济实力情况大体一致。
此外,在性别比例方面,语音识别领域中男性学者占比 87.3%,女性学者占 比 12.7%,男性学者占比远高于女性学者。
语音识别领域学者的 h-index 分布如下图所示,大部分学者的 h-index 分布在中间区域,其中 h-index 在 30-40 区间的人数最多,有 752 人,占比 37.3%, 小于 20 区间的人数最少,只有 6 人。
语音识别学者 h-index 分布
中国人才分布
我国专家学者在语音识别领域的分布如下图所示。通过下图我们可以发现, 京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时, 通过观察中国周边国家的学者数量情况,特别是与日韩、东南亚等亚洲国家相比, 中国在语音识别领域学者数量较多且有一定的优势。
语音识别中国学者分布
中国与其他国家在语音识别领域的合作情况可以根据 AMiner 数据平台分析 得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中 国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序, 如下表所示。
语音识别领域中国与各国合作论文情况
从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明 中美间在语音识别领域合作之密切;此外,中国与欧洲的合作非常广泛,前 10 名合作关系里中欧合作共占 4 席;中国与巴基斯坦合作的论文数虽然不是最多, 但是拥有最高的平均引用数说明在合作质量上中巴合作达到了较高的水平。
4 语音识别进展
随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各个步骤,以此来促进在不同环境下语音识别的效率和准确率。研究人员从最简单的非常小词汇量的阅读式的语音识别问题开始,逐渐转向越来越复杂的问题。
近年来智能语音进入了快速增长期,语音识别作为语音领域的重要分支获得了广泛的关注,如何提高声学建模能力和如何进行端到端的联合优化是语音识别领域中的重要课题。
语音识别经历了从 2012 年最开始的 DNN 的引入时的 Hybrid HMM 结构, 再到 2015 年开始吸引大家研究兴趣的 CTC 算法,而后到 2018 年的 Attention 相关结构的研究热点。Attention 相关算法在语音识别或者说话人识别研究的文章中出现频率极高。从最开始Attention,到 Listen-Attend-Spell,再到Self-Attention (或者 Transformer),在不同的文章被作者多次介绍和分析,频繁出现在了相关 文章的 Introduction 环节中。在 Attention 结构下,依然还有很多内容需要研究者 们进一步地探索:例如在一些情况下Hybrid 结构依然能够得到State-of-the-art的 结果,以及语音数据库规模和 Attention 模型性能之间的关系。
在近两年的研究中,端到端语音识别仍然是 ASR(Automatic Speech Recognition)研究的一大热点,正如上文提到的,基于 Attention 机制的识别系统已经成为了语音技术研究主流。同时,随着端到端语音识别框架日益完善,研究者们对端到端模型的训练和设计更加的关注。远场语音识别(far-field ASR), 模型结构(ASR network architecture),模型训练(model training for ASR),跨语种或者多语种语音识别(cross-lingual and multi-lingual ASR)以及一些端到端语音识别(end-to-end ASR)成为研究热点。
在语音合成方面,高音质语音生成算法及 Voice conversion 是近两年研究者 关注的两大热点,Voice Conversion 方向的研究重点主要集中在基于 GAN 的方法上。在语言模型方面(Language Model)的研究热点主要包括 NLP 模型的迁 移,低频单词的表示,以及深层 Transformer 等。
在说话人识别方面,说话人信息,特别是说话人识别及切分,正被越来越多的研究者所重视。目前 Attention 在说话人方面更类似一种 Time Pooling,比 Average Pooling 及 Stats Pooling 更能捕捉对说话人信息更重要的信息,从而带来性能提升。说话人识别技术经历深度学习带来的性能飞跃后,在模型结构、损失函数等方面的探讨已经较为成熟,以 TDNN、ResNet 加上 LMCL、ArcFace 的主流模型开始不断刷新各数据集的性能上限。模型以外的因素逐渐成为制约说话人系统的瓶颈。说话人技术目前也逐渐暴露出与人脸识别同样的易受攻击的问题。 因此,ASVspoof 这样的 Challenge 从 2015 年起就开始关注声纹反作弊问题。相信随着此类研究的不断深入,结合声纹系统的性能提升,声纹将有望变成我们的 “声音身份证”。
扩展阅读:人工只能发展概况:机器学习篇
人工智能发展概况:计算机视觉篇
人工智能发展概况:知识工程篇
人工智能发展概况:自然语言处理篇
人工智能发展概况:语音识别篇
视频:人工智能时代资料来源:公开网络