一、概念
语料库,又称翻译记忆库(TM),一个数据库,存储以前翻译过的句子、段落或文本句段。而库中的每个条目或每个句段均包含原语言(称为“源文”)及其翻译(称为“译文”)。 这些成对的句段称为翻译单位,或“TU”。语料库能降低翻译成本以及提高翻译工作的质量、速度、一致性和效率。
二、何时使用语料库
语料库在TMS和CAT系统均有使用,典型的场景如下:
- 在TMS的订单管理的数据预处理,用于统计当前订单的工作量,详见订单管理。
- 在CAT的产能管理的工作量预估,用于统计当前项目的工作量,详见产能管理。
- 在CAT的工作台,用于辅助译员提高翻译速度和质量。
三、相似度计算
- 匹配原文和被匹配的原文的相似度采用优化的编辑距离算法,取值范围:0-100
- 当步骤1计算的相似度分值等于100时,如果匹配原文的上文与被匹配原文的上文相同,则在步骤1的分值+1
- 当步骤1计算的相似度分值等于100时,如果匹配原文的下文与被匹配原文的下文相同,则在步骤2的分值+1
四、在多个语料库中是如何匹配最佳句对
- 在各个语料库分别匹配出最佳句对
- 每个语料库的最佳句对的分值乘上对应的搜索权重
- 步骤2计算的分值第一个最大者为最佳匹配句对。
- 例如语料库A、B、C,搜索权重分别是100,100,80,匹配的句对分数分别是90,90,100,那么100*90=100*90>80*100,最后最佳句对是语料库A的句对。
五、语料库使用逻辑
以XML文件为例说明系统在语料库使用上的逻辑:
- 每个主单可配置多个语料库,可设置一个主库、多个参考库(最多20个),不同的优先级。
- 每个主库或参考库可能有多个属性,可设置只匹配具有某个或多个属性的句对,从而缩小搜索范围、提升译文的一致性。
- 系统为每个主单自动床架一个“项目库”,也就是临时的中间库。该主单下面的所有子单新增的句对,在译文Confirmed之后都会自动加入到项目库内。该主单下的所有译员都可以实时共享彼此的译文。
- 语料匹配的先后逻辑:项目库 > 主库 > 参考库。当语料库无75%以上的匹配时,系统将调用MT引擎,给译员提供机翻的译文。