机器翻译评测结果，2022年机器翻译评测报告解读

小君 2023-03-12 22:52:18 249

机器翻译评测结果，2022年机器翻译评测报告解读机器翻译评测方法（一）自动评估机器翻译质量方法

机器翻译评测结果，2022年机器翻译评测报告解读(1)

近日，Intento公司与e2f公司合作发布《2022年机器翻译评测报告》，从9个行业领域、11个语言对评测了全球市场31个机器翻译引擎。该报告旨在对机器翻译供应商的机器翻译性能进行深入洞察和分析，为如何选择最适合的机器翻译引擎提供参考。

机器翻译评测方法

（一）自动评估机器翻译质量方法

hLEPOR-句法相似性：比较基于标记的n-grams的相似性。惩罚漏译和多译；惩罚意译/同义词；惩罚译文的不同长度。

BERTScore-语义相似性：分析机器翻译的BERT分数和参考译文之间差距。不惩罚意译/同义词。对于BERT模型中代表性不足的领域和术语来说，该评测方法可能是不可靠的。

TER-句法相似性：评估机器翻译结果转化成参考译文所需要进行译后编辑（增加、删除、移位和替换）的次数。惩罚意译/同义词；惩罚译文的不同长度。

PRISM-语义相似性：对机器翻译结果转述为参考译文进行评估。惩罚流畅性和充分性错误；不惩罚意译/同义词；对韩语不适用。

COMET-语义相似性：使用来自机器翻译生成的译文，参考译文和源语言文本预测机器翻译质量。它利用这些表示来学习预测质量分数，该质量分数被显式优化以与人类对翻译质量的判断相关联。实现了最先进的与人工评测的相关性水平。可能会对意译/同义词进行惩罚。

SacreBLEU-句法相似性：比较机器翻译的结果与参考译文基于标记的相似性，并在整个语料库取平均值。惩罚漏译和多译；惩罚意译/同义词；惩罚译文的不同长度。

（二）报告为什么选用COMET？
报告对15个语言对和21个不同的机器翻译模型进行了研究。其中，将几个自动评估方法与人工评测进行了比较，发现在15个语言对中的10个语言对中，COMET与人工评测的相关性优于其他评测方法。

机器翻译评测结果，2022年机器翻译评测报告解读(2)

从上述皮尔森相关系数(Pearson correlation coefficient)可以看出，在英-德、英-葡、英-荷、英-法、英-西、英-朝鲜语语言对中相比BERTScore、hLEPOR、TER，COMET和人工评测的相关性更接近。
此外，在大多数情况下，COMET和人工评测有最好的相关性。从LQA Rating(Linguistic Quality Assurance Rating)语言质量保证指数中，可以看出相比BERTScore、 hLEPOR，TER，COMET和人工评测的相关系数更高。

机器翻译评测结果，2022年机器翻译评测报告解读(3)

综上所述，报告采用COMET进行机器翻译质量评测，是因为它与人工评测有更好的关联性。用该框架训练的模型在与人类判断的相关性方面显著优于其他自动评估方法。

机器翻译评测报告分析

（一）语言对

机器翻译评测结果，2022年机器翻译评测报告解读(4)

在基于语言对的评测中，有6个机器翻译引擎表现尤为突出，分别是谷歌、DeepL、Amazon、Yandex、Naver和有道。其中DeepL和谷歌二者结合即可以覆盖所选全部语言对。在英-中这一语言对中，谷歌和有道的表现最佳（不考虑领域）。可以发现，质量最高的机器翻译引擎基本上都是提供定制化服务或术语支持的。
（二）领域

机器翻译评测结果，2022年机器翻译评测报告解读(5)

在基于领域的评测中，有16个机器翻译引擎都在不同语言对、不同领域中占据主导地位。在某些语言对中，占据主导地位的机器翻译较为单一（如英-荷）；但在英-西、英-中这两个语言对中，表现良好的机器翻译引擎明显较多；在英-中这一语言对中，综合各领域来看，表现最好的依然是谷歌和有道。

机器翻译评测结果，2022年机器翻译评测报告解读(6)

法律、金融、信息技术和医疗4个领域性能最好的机器翻译引擎较为单一，因此需要谨慎选择供应商。娱乐和口语领域的评分普遍较低，入选的机器翻译仍需在这两个领域中继续优化，提升其定制化功能。在所选机器翻译中，涉及领域最多的是谷歌和DeepL，但还有一些引擎只针对某一专业领域，例如HiThink和XL8，HiThink只适用于金融领域的英译中，XL8只适用于娱乐领域的英-西、英-法、英-韩翻译。

机器翻译评测结果，2022年机器翻译评测报告解读(7)

（三）最小覆盖范围

机器翻译评测结果，2022年机器翻译评测报告解读(8)

报告显示，至少需要6种机器翻译，即可覆盖所有语言对和行业领域。若想翻译某一具体领域，2~4种机器翻译引擎也可满足所有语言对的翻译需要。

机器翻译供应商新变化

机器翻译在2022年迅速发展，其中最突出的就是对于语言对的关注，部分机器翻译供应商语言对数量大幅增加。此外，还有一些开始关注机器翻译对于原文“语气”（tone of choice）的再现和保留，一些开源模型也逐渐涌现出来。

Amazon Translate加入机器翻译语气支持；
DeepL加入意-英、波-英2个新语言对；
Microsoft将语言对增加至10000多对；
小牛翻译涵盖语言对最多，达到90902对；
第一个拥有超过1000亿个参数的开源模型BLOOM开放供公众使用，共有1750亿参数；
Meta AI公开了其开源预训练模型NLLB。

机器翻译引擎定价

机器翻译评测结果，2022年机器翻译评测报告解读(9)

报告显示，除一些按客户要求定制和免费/测试版的机器翻译引擎外，价格排在前三的机器翻译分别为Cloud Translation、SAP Translation Hub和Kawamura，每百万字符的价格分别为626美元、450美元和100~400美元不等。

机器翻译评测结果分析

该报告对评测结果进一步进行了分析，得出了如下结论：

机器翻译供应商数量增加，由2021年的41个增至45个；
涵盖语言对数量增多，达到125075对；
16个机器翻译引擎在9个行业领域、11个语言对评测中表现最佳；
开源引擎在商用系统中处于第二梯队；
金融、法律、信息技术、医疗4个领域中，机器翻译质量表现差距较大，性能较好的机器翻译比较单一，需慎重选择；
在娱乐和口语领域，多数机器翻译引擎仍需进一步提升其定制化性能。

以上是对《2022年机器翻译评测报告》的最新解读，若想获取报告原文，请点击下方“阅读原文”。上一期的报告分析请点击链接《2022年机器翻译评测报告》解读（上）。
搜索行业信息，关注前沿资讯，欢迎大家关注“译知科技”公众号。希望本系列文章能为机器翻译从业者或爱好者提供一些行业洞察，让我们一起相互交流，共同学习！

本文转载自：译知科技公众号

关注微信公众号“语言服务行业”，“翻译技术教育与研究”，了解更多语言服务行业与翻译技术相关的资讯和洞察~

网站首页

返回栏目

机器翻译评测结果，2022年机器翻译评测报告解读

猜您喜欢：

相关文章