常见语料库（三分钟科普语料库初探）

逗爷 2022-12-21 13:21:48 128

常见语料库（三分钟科普语料库初探）作者：Tony McEneryA collection of machine-readable authentic texts (including transcripts of spoken data) which is sampled to be representative of a particular language or language variety小编将通过数期推送介绍语料库在翻译实践中的运用，本期是语料库系列推送的第一期，将简要介绍语料库的基本概念，让我们一起来揭开语料库庐山真面目吧！（一）语料库的具体内涵英国兰卡斯特大学的 Tony McEnery 教授是国际语料库语言学界的代表性学者，他在 Corpus-based Language Studies: An Advanced Resource Book 一书中对语料库有如下定义：

常见语料库（三分钟科普语料库初探）(1)

长久以来，语料库是一直是一个热门研究话题，广泛应用于语言文学、计算机科学等学科研究，以及机器翻译研发、词典编纂等领域，应用场景繁多。

知网数据显示，中国语言文学、外国语言文学、计算机软件及计算机应用等学科占据了语料库研究论文数量的八成以上，是语料库的主要应用领域。翻译界的专家学者和翻译专业的高校师生也使用语料库进行翻译研究、翻译教学和翻译实践。仅从近十年论文产出数量来看，或许可以得出近年来语料库研究热度持续升温的结论。

常见语料库（三分钟科普语料库初探）(2)

（▲语料库论文的学科类别数据来源：知网）

常见语料库（三分钟科普语料库初探）(3)

（▲语料库论文数量数据来源：知网）

小编将通过数期推送介绍语料库在翻译实践中的运用，本期是语料库系列推送的第一期，将简要介绍语料库的基本概念，让我们一起来揭开语料库庐山真面目吧！

（一）语料库的具体内涵

英国兰卡斯特大学的 Tony McEnery 教授是国际语料库语言学界的代表性学者，他在 Corpus-based Language Studies: An Advanced Resource Book 一书中对语料库有如下定义：

A collection of machine-readable authentic texts (including transcripts of spoken data) which is sampled to be representative of a particular language or language variety

作者：Tony McEnery

上述定义中高亮的词描述了语料库的四个基本特征：

machine-readable

由于语料库数据规模十分庞大，动辄上亿，且搜集的语料需经过加工处理，其统计和分析十分繁杂，仅仅依靠人来阅读检索很难实现。毕竟，看过一本书就能回忆起某句话在哪一页第几行的人毕竟是少数，所以语料库一定要机器可读；

authentic

语料库中存放的是在语言实际使用中真实出现过的语言材料，要最大限度代表语言使用的真实情况。另外，真实语料要经过加工处理才能成为有用资源。下面这段话进一步解释了“authentic text”：

“All the material is gathered from the genuine communications of people going about their normal business” unlike data gathered “in experimental conditions or in artificial conditions of various kinds”.

作者：John McHardy Sinclair

sampled

语料库是一个有限的集合，是实际语言运用的抽样，无法涵盖所有语料。显然，即使是搜索引擎这样能够抓取海量数据资源的工具，也无法获得互联网上所有信息。抽样的方法取决于语料库的建设目的，并没有一个放之四海而皆准的标准；

representative

语料选取的抽样方法对语料库代表性至关重要。例如，我们常用的美国当代英语语料库（COCA）为准确反映美国当代英语的整体使用情况，选取了等量不的同体裁语料，以确保其具有代表性。

常见语料库（三分钟科普语料库初探）(4)

（▲数据来源：COCA语料库官网）

综上，语料库是一个可供机器检索的有限文本集合，通过一定方法抽样选取真实语料，以最大限度代表语言使用的真实情况，以研究一种语言或者语言变体。

随着时代发展，语料库所收集的数据便不仅限于文本数据，还包括音频、视频、图片等多模态语料。

（二）语料库的前世今生

经验主义是语料库诞生的思想基础。建立认知的过程总是从观察开始，当对某一现象有一定的观察积累后，感性认识才能升华成理性认识。语言研究也是如此，为了对语言形成整体认识，显然需要对语言进行大量观察。所以，建立一个足够大的语料库是对语言形成全景性透视的前提和基础，也是我们进行语言研究的有效方法。

基于语料库的统计分析研究属于经验主义范畴，是基于统计的，与基于规则的理性主义相对。理性主义认为，世界由公理系统可以产生，像数学一样严谨和完美，我们只要有很少的公理，然后不断地进行演绎，就可以构建出我们这个世界。但语言研究无法像数学公理系统一样，基于一些有限的规则，就演绎出我们完整的自然语言体系。虽然这听起来很美妙，但人类具有强大的创造力，使用的语言具有很强的随机性，有限的语言规则无法演绎生成无限的语言。倘若未来某一天人类发现了这样一套公理系统，那么机器翻译就能随时替代人工翻译。

计算机技术的发展为语料库的产生奠定了物质基础。建立语料库需要有庞大的数据积累，存储能力和检索能力至关重要，没有信息技术的支撑，仅凭人力很难对语言形成全面的认知，所以语料库的发展很大程度上受限于计算机技术。

根据计算机技术的发展，我们将语料库计算机化以前的语料库称为传统语料库，将计算机化以后的语料库称为现代语料库。

传统语料库

计算机化以前的传统语料库主要有以下三种用途：

1. 为词典编撰、语法研究而收集的语料库

牛津英语词典(Oxford English Dictionary)：1928 年引证 400 万条卡片 1100 万张韦伯斯特新国际词典(Webster's New International Dictionary)：1961 年第三版新旧引证 1000 多万条。

2. 为教学目的而编制的书面语料库和词表

陈鹤琴《语体文应用字汇》，商务印书馆，1928 年。做过两次统计，第一次统计使用了六种材料，包含 554 478 个汉字的语料，得出不同汉字 4261 个；各类型文本字数统计结果如下：

材料类型	字数统计
儿童用书	127 293字
报刊（以通俗报刊为主）	153 344字
妇女杂志	90 142字
小学生课外作品	51 807字
古今小说	71 267字
杂志	60 625字

第二次使用包含 34 818 个汉字的语料，得出与 4261 个汉字相异的汉字 458 个。

3. 为语言调查而收集的方言库

19、20 世纪英、美等国都做过大型的方言调查，调查的结果形成几个大规模的方言库；在我国，运用语料的研究方法可以追溯到周秦，如我国汉语方言学的第一部著作《輶轩使者绝代语释别国方言》是扬雄经过 27 年的艰苦努力而写成的。

现代语料库

计算机化以后的现代语料库大体上可以分为四个时期：

第一代语料库（1970 - 80年代）

第二代语料库（1980 - 90年代）

第三代语料库（1990年代 - 至今）

第一代语料库（1970 - 80年代）

常见语料库（三分钟科普语料库初探）(5)

（▲来源：詹卫东教授PPT）

1. 布朗语料库

1961 年，弗朗西斯（ N. Francis）和库塞拉（ H. Kucera）为首的一批语言学家和计算机专家汇集在美国的布朗大学，合作建成了世界上最早的机读语料库，即布朗语料库（ Brown Corpus）。主要代表当代美国英语，规模 100 万词次，是世界上第一个根据系统性原则采集样本的标准语料库，其采用的标准成为后来语料库建设所必须遵循的规范之一。

2. LOB 语料库

始建于 1970 年代初，由英国 Lancaster 大学著名语言学家Geofferey Lech 倡议，挪威 Oslo 大学 Stig Johansson 主持完成。LOB 语料库（The Lancaster-Oslo/Bergen Corpus）规模与 Brown 语料库相当，主要反映当代英国英语，安装在挪威 Bergen 大学挪威人文科学计算中心。

3. LLC 语料库

LLC 语料库是世界上第一个口语语料库，建成于1975年。由于当时计算机无法处理多媒体资源，斯沃特威克（Svartvik）与他在隆德大学的同事将 SEU 语料库中的口语部分转变为计算机可读的文本形式，共收集了 2000 小时的谈话和广播等口语素材，最后建立了“伦敦—隆德英语口语语料库”（London-Lund Corpus of Spoken English），简称 LLC 语料库。

第二代语料库（1980 - 90年代）

常见语料库（三分钟科普语料库初探）(6)

（▲来源：詹卫东教授PPT）

第二代语料库进入了更大规模的发展，以下是具有代表性的语料库：

1. COBUILD语料库

（Collins Birmingham University International Language Database）

2. 英国国家语料库

（British National Corpus，简称 BNC 语料库）

3. 国际英语语料库

（International Corpus of English）

4. 朗文语料库

(Longman Corpus Network)

其中最具代表性的是 Cobuild 语料库和朗文语料库。

常见语料库（三分钟科普语料库初探）(7)

（▲柯林斯词典）

Cobuild 语料库建立的目的是为了编纂《柯林斯英语词典》，使用语料库编纂词典的好处在于可以根据义项的使用频率对其进行排列，这样读者在查询单词时往往都能在前几个义项中找到自己所需的词义。

常见语料库（三分钟科普语料库初探）(8)

（▲朗文词典）

朗文语料库是一个商用语料库，由三个大的语料库组成，分别是朗文/兰凯斯特英语语料库（Longman/Lancaster English Language Corpus 简称LLEIC语料库）、朗文口语语料库（Longman Spoken Corpus，即 LSC 语料库）、朗文英语学习者语料库（Longman Corpus of Learners’ En glish，即 LCLE 语料库），主要目标之一是编纂英语学习词典，为外国人学习英语服务，规模达到5000万词级。

第三代语料库（1990 - 至今）

常见语料库（三分钟科普语料库初探）(9)

（▲来源：詹卫东教授PPT）

第三代语料库进入了超大规模发展，具有以下特点：

1. 数量：从百万级到千万级再到亿级和万亿级。

2. 语料：从单语种到多语种。

3. 加工：从词法级到句法级再到语义和语用级，标注深度逐渐加深。

4. 文本：从抽样到全文。

以下是具有代表性的语料库：

1. ACL/DCI语料库

美国计算语言学学会（ACL）倡议的数据采集计划（Data Collection Initiative，DCI），其宗旨是向非赢利的学术团体提供语料，以免除费用和版权的困扰，用标准通用置标语言 SGML 统一置标，以便于数据交换。

2. Upenn树库

美国宾夕法尼亚大学 1980 年代末开始发起，由该校计算机系 M.Marcus 主持，于 1993 年完成了对近 300 万英语词的句子语法。2000 年发布中文树库（第一版），共计 10 万词，4185 个句子，325 数据文件（新华社语料）。2004 年发布中文树库 4.0 版，共计 404 156 词 664 633 汉字 15 162 句子和 838 数据文件(大陆香港台湾语料）。

常见语料库（三分钟科普语料库初探）(10)