快捷搜索:  汽车  科技

语料库云图怎么换(高翻工作坊-语料库应用)

语料库云图怎么换(高翻工作坊-语料库应用)1.学术价值或影响力原则:质量把控语料库采集原则● 语料深加工● 格式转换01

语料库创建流程

● 语料采集

● 语料清洗、降噪

● 语料对齐

● 语料深加工

● 格式转换

01

语料库采集原则

1.学术价值或影响力原则:质量把控

2.时间原则:25年为一个周期,时间跨度不能太长

3.语料可及原则:获取足够规模

4.质量原则

5.分类原则:各个行业的分类

6.规模原则

【注】必须是真实的语言材料,采集方式:整本收录、抽样(随机抽样、分层抽样、聚类抽样)

语料库采集方法

1.资源获取

2.OCR识别

3.数据抓取技术

4.格式转换

语料库检索资源

COCA语料库-作为查词典的补充

BNC-英式英语

SKETCH ENGINE-多语种语料库

联合国文件数据库-正式文件

北京BCC汉语语料库-汉语语料

语料库在线-汉语语料

LIVAC汉语共时语料库

Tmxmall语料快捷

Glosbe多语种在线词典

Lingue-网络例句、官方网站(建议查询词组)

中国汉英平行语料大世界

句酷

BiCovid-疫情相关语料库

TAUS Data-多语种语料

MyMemory

光学识别软件

ABBYY 点击推文光学识别软件

ILovePDF-在线

CleverPDF-在线

QQ识别

TextForever

语料抓取

打开Teleport Ultra,点击文件-新建项目向导

语料库云图怎么换(高翻工作坊-语料库应用)(1)

复制需要抓取的网址https://www.kanunu8.com/book4/10369/index.html

语料库云图怎么换(高翻工作坊-语料库应用)(2)

选择需要抓取的内容

语料库云图怎么换(高翻工作坊-语料库应用)(3)

语料库云图怎么换(高翻工作坊-语料库应用)(4)

网址的原文本:

语料库云图怎么换(高翻工作坊-语料库应用)(5)

抓取后的文本:

语料库云图怎么换(高翻工作坊-语料库应用)(6)

02

语料清洗

噪音文本:

1.抓取的信息缺失、冗余

2.逻辑对应错误

3.格式、内容错误

常用清洗工具

TextForever

Notepad /EditPlus

PowerGREP (借助正则表达式)

Microsoft Word

文本整理器

正则表达式

正则表达式30分钟入门教程:

https://deerchao.cn/tutorials/regex/regex.htm

利用word清洗

文章段落有下箭头,说明没有完全分行:

语料库云图怎么换(高翻工作坊-语料库应用)(7)

点击编辑-查找和替换-替换

语料库云图怎么换(高翻工作坊-语料库应用)(8)

在特殊格式里选择要替换的符号

语料库云图怎么换(高翻工作坊-语料库应用)(9)

软回车(手动换行符)替换为硬回车(段落标记),即^L替换为^P

语料库云图怎么换(高翻工作坊-语料库应用)(10)

点击全部替换,得到下图

语料库云图怎么换(高翻工作坊-语料库应用)(11)

删除如下图所示的多余空行:将^P^P替换为^P

语料库云图怎么换(高翻工作坊-语料库应用)(12)

利用文本整理器清洗

1.用于去掉空格、把全角符号替换成半角符号

2.导入的文本必须使用txt文档

语料库云图怎么换(高翻工作坊-语料库应用)(13)

03

语料深加工(学术应用)

1.语料分词

2.词形还原-变形、变体、变位、派生词等

3.语料标注-词法标注、语用标注、句法标注

4.元信息标记

04

语料对齐标准

1.英语原文与中文译文的句子对齐以一一对应为主,但也允许一对多、多对一等特殊情况存在。

2.一般以句号、问号、感叹号作为分句标记

3.保证各语言分句结果在句法逻辑上是完整的。

语料对齐工具

1.Paraconc-view corpus alignment:有对齐功能,但不可导出

2.CAT软件自带工具、组件:

SDL Trados:需要人工连线,比较麻烦

memoQ-LiveDocs

Dejavu Alignment

雪人翻译软件-对齐组件

3.独立工具:

Tmxmall在线对齐

ABBYY Aligner

Tmxmall在线对齐

导入双文档后,调整每一段进行一一对应

语料库云图怎么换(高翻工作坊-语料库应用)(14)

语料库云图怎么换(高翻工作坊-语料库应用)(15)

通过上移或下移使文本一一对应

语料库云图怎么换(高翻工作坊-语料库应用)(16)

合并分句:点击一个分句后按住ctrl,再选中另一个需要合并的分句

语料库云图怎么换(高翻工作坊-语料库应用)(17)

单个自然段的序号颜色相同,检查是否一一对应

语料库云图怎么换(高翻工作坊-语料库应用)(18)

在简单调整双语文本后,选择对齐

语料库云图怎么换(高翻工作坊-语料库应用)(19)

对齐后进行语料去重:点击高级功能-原文=译文

语料库云图怎么换(高翻工作坊-语料库应用)(20)

单击分句后,可选择删除

语料库云图怎么换(高翻工作坊-语料库应用)(21)

提取术语表:点击提取术语

语料库云图怎么换(高翻工作坊-语料库应用)(22)

可导出所需的格式

语料库云图怎么换(高翻工作坊-语料库应用)(23)

05

格式转换

不同软件对文件格式支持不同,因此需要文件格式转换:

1.翻译记忆库一般切换形式为*.tmx

2.SDL Trados 记忆库格式为*.sdltm

3.memoQ 的记忆库格式为*.mtm

4.Dejavu 的记忆库格式为*.dvmdb

5.用于学术研究的语料库一般为*.txt,但不同工具对文件编码要求不同:

Wordsmith 支持编码为Unicode

antconc 支持编码为UTF-8

paraconc 对中文支持ANSI编码,英文为UTF-8编码

格式转换工具

1.Heartsome TMX Editor:点击工具-将tmx文件转换成指定格式

2.CAT工具-转换格式

3.文件另存为-编码-保存

4.Notepad :点击编码进行转换

记忆库管理工具

Heartsome TMX Editor

COCA在线语料检索

比如,直接输入词组break out,查看用法

输入*break out 查看哪些词后面可以跟break out

输入*_NNbreak out 查看哪些名词后面可以跟break out

管理语料

1.按照时间、领域、客户进行划分

2.参考利用已有语料库,避免重复劳动

3.团队共享已有语料库,把握翻译文本风格

4.常规语料分类

公众号 | 绿山墙外(雅思、翻译、翻译技术)

猜您喜欢: