语料库云图怎么换(高翻工作坊-语料库应用)
语料库云图怎么换(高翻工作坊-语料库应用)1.学术价值或影响力原则:质量把控语料库采集原则● 语料深加工● 格式转换01
语料库创建流程
● 语料采集
● 语料清洗、降噪
● 语料对齐
● 语料深加工
● 格式转换
01
语料库采集原则
1.学术价值或影响力原则:质量把控
2.时间原则:25年为一个周期,时间跨度不能太长
3.语料可及原则:获取足够规模
4.质量原则
5.分类原则:各个行业的分类
6.规模原则
【注】必须是真实的语言材料,采集方式:整本收录、抽样(随机抽样、分层抽样、聚类抽样)
语料库采集方法
1.资源获取
2.OCR识别
3.数据抓取技术
4.格式转换
语料库检索资源
COCA语料库-作为查词典的补充
BNC-英式英语
SKETCH ENGINE-多语种语料库
联合国文件数据库-正式文件
北京BCC汉语语料库-汉语语料
语料库在线-汉语语料
LIVAC汉语共时语料库
Tmxmall语料快捷
Glosbe多语种在线词典
Lingue-网络例句、官方网站(建议查询词组)
中国汉英平行语料大世界
句酷
BiCovid-疫情相关语料库
TAUS Data-多语种语料
MyMemory
光学识别软件
ABBYY 点击推文光学识别软件
ILovePDF-在线
CleverPDF-在线
QQ识别
TextForever
语料抓取
打开Teleport Ultra,点击文件-新建项目向导
复制需要抓取的网址https://www.kanunu8.com/book4/10369/index.html
选择需要抓取的内容
网址的原文本:
抓取后的文本:
02
语料清洗
噪音文本:
1.抓取的信息缺失、冗余
2.逻辑对应错误
3.格式、内容错误
常用清洗工具
TextForever
Notepad /EditPlus
PowerGREP (借助正则表达式)
Microsoft Word
文本整理器
正则表达式
正则表达式30分钟入门教程:
https://deerchao.cn/tutorials/regex/regex.htm
利用word清洗
文章段落有下箭头,说明没有完全分行:
点击编辑-查找和替换-替换
在特殊格式里选择要替换的符号
软回车(手动换行符)替换为硬回车(段落标记),即^L替换为^P
点击全部替换,得到下图
删除如下图所示的多余空行:将^P^P替换为^P
利用文本整理器清洗
1.用于去掉空格、把全角符号替换成半角符号
2.导入的文本必须使用txt文档
03
语料深加工(学术应用)
1.语料分词
2.词形还原-变形、变体、变位、派生词等
3.语料标注-词法标注、语用标注、句法标注
4.元信息标记
04
语料对齐标准
1.英语原文与中文译文的句子对齐以一一对应为主,但也允许一对多、多对一等特殊情况存在。
2.一般以句号、问号、感叹号作为分句标记
3.保证各语言分句结果在句法逻辑上是完整的。
语料对齐工具
1.Paraconc-view corpus alignment:有对齐功能,但不可导出
2.CAT软件自带工具、组件:
SDL Trados:需要人工连线,比较麻烦
memoQ-LiveDocs
Dejavu Alignment
雪人翻译软件-对齐组件
3.独立工具:
Tmxmall在线对齐
ABBYY Aligner
Tmxmall在线对齐
导入双文档后,调整每一段进行一一对应
通过上移或下移使文本一一对应
合并分句:点击一个分句后按住ctrl,再选中另一个需要合并的分句
单个自然段的序号颜色相同,检查是否一一对应
在简单调整双语文本后,选择对齐
对齐后进行语料去重:点击高级功能-原文=译文
单击分句后,可选择删除
提取术语表:点击提取术语
可导出所需的格式
05
格式转换
不同软件对文件格式支持不同,因此需要文件格式转换:
1.翻译记忆库一般切换形式为*.tmx
2.SDL Trados 记忆库格式为*.sdltm
3.memoQ 的记忆库格式为*.mtm
4.Dejavu 的记忆库格式为*.dvmdb
5.用于学术研究的语料库一般为*.txt,但不同工具对文件编码要求不同:
Wordsmith 支持编码为Unicode
antconc 支持编码为UTF-8
paraconc 对中文支持ANSI编码,英文为UTF-8编码
格式转换工具
1.Heartsome TMX Editor:点击工具-将tmx文件转换成指定格式
2.CAT工具-转换格式
3.文件另存为-编码-保存
4.Notepad :点击编码进行转换
记忆库管理工具
Heartsome TMX Editor
COCA在线语料检索
比如,直接输入词组break out,查看用法
输入*break out 查看哪些词后面可以跟break out
输入*_NNbreak out 查看哪些名词后面可以跟break out
管理语料
1.按照时间、领域、客户进行划分
2.参考利用已有语料库,避免重复劳动
3.团队共享已有语料库,把握翻译文本风格
4.常规语料分类
公众号 | 绿山墙外(雅思、翻译、翻译技术)