谷歌翻译为什么那么准确(Google翻译更胜一筹破)
谷歌翻译为什么那么准确(Google翻译更胜一筹破)使用人类对比评分指标,GNMT 系统生成的翻译相比此前有了大幅提高。在几种重要语言中,GNMT将翻译错误降低了55%-58%。 要每一步生成一个翻译好的英语单词,解码器需要注意被编码中文向量的加权分布中,与生成英语单词关系最为密切的那个(上图中解码器d上面多条透明蓝线中颜色最深的那条),解码器关注越多,蓝色越深。(b)部分是这些点集的其中一个放大后的结果。(c)部分则由原语言的颜色所示。在单个点集中,我们能够看到日韩英三种语言中,拥有相同含义的句子聚在一起。这意味着网络必定是对句子的语义进行编码,而不是简单地记住短语到短语之间的翻译。所以我们认为这代表了网络中存在了一种国际通用语(interlingua)。 下面的动图展示了 GNMT 进行汉英翻译的过程。首先,网络将汉字(输入)编码成一串向量,每个向量代表了当前读到它那里的意思(即 e3 代表“知识就是”,e5代表“知识就是力量”)。整句
过去10年中,Google翻译已从仅支持几种语言发展到了支持 103种,每天翻译超过了 1400亿字。为了实现这一点,我们需要构建和维护许多不同的系统,以便在任何两种语言之间进行转换,由此产生了巨大的计算成本 。
就在昨天,美国时间 11 月 22 日。除了提高翻译质量,我们的方法还实现了“Zero-Shot Translation”,也即在没有先验数据的情况下,让系统对从未见过的语言进行翻译。
下图展示了最新GNMT 的工作原理。假设我们使用日语和英语以及韩语和英语之间相互翻译为例,训练一个多语言系统,如动画中蓝色实线所示。这个新的多语言系统与单个 GNMT 系统大小一样,参数也一样,能够在日英和韩英这两组语言对中进行双语翻译。
分析明白:能够让系统在从未见过的语言对之间进行翻译吗?例如韩语和日语之间的翻译,系统并没有接受过日韩之间翻译的训练。但答案是肯定的——虽然从来没有教过它但,新的系统确实能够生成日韩两种语言之间合理的翻译。我们将其称为“零数据”(zero-shot)翻译。从上图显示:
(a)部分显示了这些翻译的总体几何构成。意思相同的一句话可以从英语翻译为韩语,与从日语翻译为英语的颜色相同。不同颜色的点各自形成的集合(group)。
(b)部分是这些点集的其中一个放大后的结果。
(c)部分则由原语言的颜色所示。在单个点集中,我们能够看到日韩英三种语言中,拥有相同含义的句子聚在一起。这意味着网络必定是对句子的语义进行编码,而不是简单地记住短语到短语之间的翻译。所以我们认为这代表了网络中存在了一种国际通用语(interlingua)。
下面的动图展示了 GNMT 进行汉英翻译的过程。首先,网络将汉字(输入)编码成一串向量,每个向量代表了当前读到它那里的意思(即 e3 代表“知识就是”,e5代表“知识就是力量”)。整句话读完之后开始解码,每次生成一个作为输出的英语单词(解码器)。
要每一步生成一个翻译好的英语单词,解码器需要注意被编码中文向量的加权分布中,与生成英语单词关系最为密切的那个(上图中解码器d上面多条透明蓝线中颜色最深的那条),解码器关注越多,蓝色越深。
使用人类对比评分指标,GNMT 系统生成的翻译相比此前有了大幅提高。在几种重要语言中,GNMT将翻译错误降低了55%-58%。
就在几天前,国外研究员Smerity在他的博客上发布了一篇分析谷歌神经机器翻译(GNMT)架构的文章,在HackerNews、Reddit 等网站都引发了很多讨论。
Smerity在博文中指出,GNMT 的架构并不标准,而且在很多情况下偏离主流学术论文中提出的架构。但是,根据谷歌特定的需求,谷歌修改了系统,重点保证系统的实用性而并非追求顶尖结果。
Google的多语言神经机器翻译系统:实现 zero-shot 翻译:
最新模型对通用语言中,展示混合语言时会出现的有趣案例。
点评:Zero-Shot系统将从今天开始陆续为所有Google翻译用户提供服务。包括英文、法语、西语、葡萄牙语、中文、德语、韩文、日文和土耳其语这几种语言之间的互译。但现在编译的语言,并没有实现全部语言的普及,但在不远的将来,此系统将会普及到所有语言!小编理清了一下,希望对此行业的人有很大的帮助,谢谢阅览!