学员心得

翻译术语库,轻松伴学!

IHIL~XEQY`Z6SMSO$C_XYEG.png

翻译术语库的概念就是通过科学的收集信息,输入信息,储存以及将这些信息分门别类,以此来换取术语信息,并为科技用户提供规范性的目带有检索功能的数据库。今天就和试译君一起来看看李同学的实习分享吧


李同学

ID:155883

1,您之前学习接触过术语管理和语料库相关的知识吗?如有,是在什么背景下学习的?(请详述。)


– No. –

01

我之前从未接触过术语管理和语料库相关知识。但是通过本周老师的讲解以及我私下浏览相关网页,我学习到了很多关于术语管理以及语料库的相关知识。


2,在本周的学习和实践中,您又学到了术语管理和语料库方面的哪些新知识和技能?您感觉哪些比较有帮助?(请详述。)

– No. –

02


在本周的学习中,我对于术语管理和语料库方面有了较为全面的了解,从第一天的学习术语库构建的一般流程以及语智云帆术语库的构建方案中我首先了解到了,翻译术语库的概念就是通过科学的收集信息,输入信息,储存以及将这些信息分门别类,以此来换取术语信息,并为科技用户提供规范性的目带有检索功能的数据库。


术语库的设计有着不同的应用场景和建设目的,我们可以针对不同的设计场景和需求进行不同的设计,比如术语学研究者可能会需要对某一些术语进行历时性分析,即在不同的时间术语的不同译文。在标注阶段需要增加术语以及其译文的时间等等信息。但是如果是面向非业内人士的术语检索服务,就需要添加术语的释义信息等等。


在设计完术语库以后要开始语料分析,而到目前呢,语料的获取有三种方法,一是从现有的术语库中导入,二是从领域相关词表中编辑搜索并且手动收入,三是相关软件工具中提取并储存到数据库中。语料又分为单语语料和双语语料,对于前者,术语库的构建者要对语料进行初步的清洗,去掉语料中的标记,格式,以及非文本内容。然而对于双语文本语料,除了要对原文和译文进行初步的清洗处理以外,还要对原文和译文进行篇章级对齐,并且导出为成文的文本等格式。我还了解到了什么是句子段落级的切分与对齐以及人工校对以及切分结果和术语识别与翻译。对于大数量级的文本校对方法,取出一千分之一或万分之一的数据进行校对,如果错误率小于百分之一,则认为整体切分结果是可用的:否则不可用,需要进行原始数据筛查并且再清理。


对于语料库,在这周里我学习到了它的基本概念就是按照一定的采样标准,能够代表一种语言或者某种语言的一种变体或文类的电子文本集。语料库的主要类型通用性语料库和专用性语料库,有笔语语料库和口语语料库,或者单语语料库双语语料库以及多语语料库,共时语料库和历时语料库静态语料库和监控语料库等等。语料库的应用方面很广,包括词典的编辑,语言教学,材料的编写考试的开发以及自主评分系统和翻译研究。


此外,我还学习到了语料库的对齐和语料库管理,平行语料库语料对齐和管理都是有助于我们工作和研究的特征,只有好好学习使用运用这些工具才能让我们的工作更加便捷。

3,关于术语管理和语料库,您还知道哪些学习资源,还掌握哪些知识和技能?(请详述。

– No. –

03

关于术语管理和语料库,我还知道文本语料库的分类:最简单的是孤立的文本集合,按照文本等标签分类组成结构,如:布朗语料库。分类不严格,会重叠的语料库,如:路透社语料库。随时间/语言用法改变的语料库 ,如:就职演说库。还有一些常见语料库及其用法:古藤堡语料库网络text主要是非正式文学,论坛交流,剧本,评论等。


聊天文本是根据聊天室划分的(文件名包括 日期、聊天室、帖子数量)。布朗语料库:百万词级语料库,没啥好说的。按照文本分类,如新闻、社论等。路透社语料库:新闻文档,分为“训练”和“测试”两组。


便于及其进行训练和测试。命名就是test/number和training/number还有就职演说语料库。术语表和术语集都是术语管理的资源,但是术语表侧重指术语的清单,表中包含的都是公司产品、服务及软件程序中实际应用的术语,术语表通常不罗列错误的和不再使用的术语。