开源计算机辅助翻译工具研究

您所在的位置:网站首页 计算机辅助翻译的缺点 开源计算机辅助翻译工具研究

开源计算机辅助翻译工具研究

2024-07-12 06:15| 来源: 网络整理| 查看: 265

近年来,随着开源运动的发展,开源项目覆盖领域广泛,从专门的应用程序到门户网站,从电子政务到全面开发开源软件包计划,开源软件已经渗透到各个不同的行业。开源软件在翻译行业中也日益普及,翻译领域也出现了众多开源CAT工具,这些开源软件凭借其优势受到企业和用户的青睐,在国内的应用也越来越广泛。 一、国内开源计算机辅助翻译研究现状

开源即开放源代码(Open Source),开源软件(Open-Source Software,简称OSS)是一种源代码可以任意获取的计算机软件,这种软件的版权持有人在软件协议的规定之下保留一部分权利并允许用户学习、修改、增进提高这款软件的质量[1]。开源的最大特点在于开发人员和使用者可以看到内码、修改程序,软件源代码自由流通,不受知识产权的约束。开源软件最早出现于20世纪70年代,至今经历了数十年的发展历程。在操作系统、数据库、服务器、移动应用等方面都有风靡全球的开源产品,如今已经深入渗透到了人们的社会生活和工作的各个领域,从不同的角度以不同的形式影响着人们的日常生活。近年来,随着kernel.org,Opensource,Sourceforge,Linux中国,开源中国社区等社区的兴起,开源CAT软件的开发和应用呈现出上升趋势。

关于计算机辅助翻译的概念,国内外诸多学者均有论述,国外的如Bowker[2],Hutchins[3],Kay[4],Kenny[5],Melby[6],Quah[7],Sommers[8]等,国内的如冯志伟、徐彬[12]、张政[13]、苏明阳[14]、钱多秀、俞敬松[15]、王华树[13, 15]。归结起来,大致可分为狭义和广义两大类。狭义的计算机辅助翻译技术通常是指利用翻译记忆的匹配技术提高翻译效率的翻译技术。它利用计算机模拟人脑记忆功能的机制,将翻译过程中简单、重复性的记忆活动交给计算机来做,将译者从机械性的工作中解放出来,全力关注翻译本身的问题。计算机辅助翻译是以人为主体进行的翻译活动,区别于全自动化的机器翻译,前者可以称为“机助人译”,后者可以称为“人助机译”。国外的SDL Trados,Déjà Vu,Wordfast,MemoQ,STAR Transit等主流的计算机辅助翻译工具,以及国内的雅信CAT、传神TCAT、朗瑞CAT、雪人CAT等工具属于此类技术范畴。广义的计算机辅助翻译技术则不限于此,可以涵盖译者在翻译过程中可能用到的提高翻译效率的信息技术,如在线词典、语料库、格式转换、OCR识别、桌面搜索等。本文主要探讨狭义的开源CAT工具。

所谓的开源计算机辅助翻译工具是指开放源代码的翻译记忆系统。在翻译过程中,系统将已有的原文和译文以句子为单位存储在翻译记忆数据库中,并自动搜索翻译记忆库中相同或相似的翻译资源供译者参考,可以帮助译者提高翻译速度,确保译文术语和风格的一致性。和其他开源工具一样,开源的翻译记忆系统也具备实现开放源代码、修改程序、软件源代码自由流通、不受知识产权约束的特征。

笔者通过中国知网数据库检索主题词“开源计算机辅助翻译”和“开源”或“计算机辅助翻译”,检索时间不限,检索范围涵盖了全国外语类的学术期刊,发现探讨开源计算机辅助翻译技术或工具的文章寥寥无几。国内翻译研究者或翻译技术教育者对开源计算机辅助翻译的关注度远远不够,研究基本上为空白状态。因为计算机辅助翻译涉及到了语言学、翻译学、传播学、信息技术、软件工程等多个学科,具有明显的跨学科特征,所以不容易被人理解,有必要做普及性介绍。 二、主要的开源计算机辅助翻译工具

随着开源运动的发展,在翻译领域中,支持多国语言的软件工具不断涌现,众多开源软件在翻译实践中得到了广泛应用。目前市面大多数CAT工具基本上都属于商业系统,如SDL Trados,DéjàVu,Wordfast,MemoQ等。相对商业CAT工具来说,开源CAT工具所占比例较少,主要用于开源社区的翻译项目以及中小型语言服务企业。诸如Anaphraseus,ForeignDesk,G11NtoolKit,Lokalize,OmegaT,Ooxlate,Open Language Tools,OpenTM2,Open-tran,Pootle,TransFluent,Transolution,Okapi Framework,TinyTM,Virtaal,Wordforge等工具是开源CAT工具的主要代表。从结构上看,开源CAT工具大致可以分为嵌入式和独立式两种。从软件架构上,大致可以分为C/S架构(Client/Server,客户机/服务器)和B/S架构(Browser/Server,浏览器/服务器)。前者是早期软件系统首选的设计标准,后者是随着互联网技术的兴起,对C/S架构的一种改进,也是未来的CAT工具发展中占据主导地位的一种设计理念。下面分别介绍几款具有代表性的开源CAT工具。

嵌入式的工具,如Anaphraseus。它是基于Open Office.org Basic的一种宏设置,可为OpenOffice.org用户提供包括文本分割、翻译编辑、模糊匹配、术语识别、词汇表导入导出等辅助功能。它兼容TMX标准,可以导入OmegaT翻译记忆库文件,并且同Wordfast的翻译记忆库无缝连接。独立式的工具,如OmegaT。作为一个独立的、跨平台CAT工具,OmegaT可辅助译员处理翻译资源,在翻译项目中管理源文件、翻译记忆和术语。OmegaT凭借其实用强大的功能,受到各个领域的欢迎。在商业领域,微软Translation Hub将OmegaT视为重要合作伙伴之一,因为该软件支持众多格式,能够直接兼容微软的术语集以及多语言种类TBX格式的文件,甚至可以在同一个项目中同时处理多种格式的文档。在教育领域,诸多英美高校高度重视OmegaT的教学,英国开设计算机辅助翻译课程的四所高校,即利兹大学(University of Leeds)、斯旺西大学(University of Swansea)、伦敦帝国学院(Imperial College of London)和诺丁汉大学(University of Nottingham),都要求学生需掌握这一世界通用的CAT软件[17]。此外,这一实用工具还受到政府机构的青睐,日本政府资助开发的Benten就是使用OmegaT代码来处理翻译记忆匹配过程的,南非政府的艺术和文化部门资助开发的Autshumato translation suite也是基于OmegaT创建的。

Okapi Framework属于独立式的开源CAT工具,不过它是一系列组件和应用程序的集合,包括Rainbow,CheckMate,Ratel等几个常用组件,可为文档、软件的本地化和翻译提供多层次的技术支持,广泛应用于各大本地化服务提供商,Microsoft,Google,Pactera,Lionbridge等公司都在使用Okapi Framework工具。

Pootle是基于B/S架构的翻译和管理系统,旨在帮助团队进行翻译协作,在有网络接入的任意地方,译员都能通过这一平台进行多人在线实时协作,操控同一个翻译项目,进行任务分配、信息统计、双语语料回收以及远程翻译数据库共享等工作。开源网页浏览器Mozilla Firefox,开源办公软件OpenOffice.Org以及由美国麻省理工大学的尼葛洛·庞帝教授提出的“每个孩子一台笔记本电脑”(One Laptop Per Child)项目[9]等都纷纷采用Pootle进行翻译项目管理。 三、开源计算机辅助翻译工具的优势和局限性分析

计算机辅助翻译技术具有重复利用以前翻译的语料,方便统一术语,保持翻译一致性等强大的功能,所以商业的CAT工具被广泛应用于语言服务行业,并占据主要的翻译技术市场。同商业的CAT工具相比,开源CAT工具也具有明显的优势[9, 18]。

(1)性价比高。开源CAT工具的主要功能与商业CAT工具相当,可兼容TMX标准,具备模糊匹配、术语管理等主要功能,译者几乎不需花费任何代价,可以节省购买翻译工具的费用。相比之下,商用CAT除了采购软件本身的成本,还需要支付病毒防护成本、技术支持费用、升级开支和与厂商锁定有关的成本,价格十分高昂(如表 1所示)。开源CAT工具对于个人译者、教育机构和非营利机构等有很大帮助。

表 1(Table 1) 表 1 专有软件和开源软件成本比较 Tab.1 Cost comparison between proprietary software and open source software 专有软件(Poprietary Software)开源软件(Open Source Software) Microsoft Windows XP Professional:$262.99Ubuntu Linux:$0.00 Microsoft Office XP Professional:$225.00Open Office.org:$0.00 Microsoft Outlook:$89.99Mozilla Mail:$0.00 Quick Bookds Basic:$189.99Gnu Cash:$0.00 Trados 7 Freelance:$895.00Omega T:$0.00 Total:$1,662.97Total:$220.00 表 1 专有软件和开源软件成本比较 Tab. 1 Cost comparison between proprietary software and open source software

(2)灵活可靠。商用CAT经常受制于供应商,有时甚至受到IP限制,软件需要经常升级,如果不升级,可能就无法使用。而开源软件即使在较老的机器上仍然能够很好地运行,用户可以自主决定升级的时间。

(3)定制化强。由于源代码是开放的,用户可以自行获取并修改以便适应自己的需求。这种定制化能力不仅仅是修改软件,更重要的是还添加了用户所需的功能。

(4)安全性高。Linux创始人提出著名的“林纳斯定律”:有足够多的人关注,错误将无所遁形(given enough eyeballs,all bugs are shallow)[10]。意思是说看到和测试代码的人越多,漏洞就越可能被更快地发现和修复。开源的CAT软件背后有全球各地的社区进行审查和测试,一有漏洞很快就能修复,而封闭的商用CAT软件则难以做到,用户只能从厂商处得知他们在保持着软件的安全和遵守标准的说法。

因此,从某种程度来看,开源的CAT工具已经赶上并正在努力超越商用的CAT工具。

众多开源CAT系统的出现,可以满足不同用户的需求,根据市场需要还将出现更多新的工具。许多开源社区的用户在使用过程中,也看到了开源CAT系统的不足之处。归结起来,主要有以下几个方面。

(1)大多数开源CAT工具采取独立式架构,许多工具采用了PO、XLIFF、TMX等标准的翻译数据格式,但是具有开放的应用程序接口(Application Programming Interface)系统仍在少数,不利于数据交换或远程服务调用。

(2)开源CAT工具之间的集成性和互操作性相对较低,缺少资金维护,用户体验不佳。不同的开源社区根据特定的需求会开发出不同的工具集,会造成多数功能重复。

(3)多数开源CAT工具主要提供翻译编辑功能,具备流程管理、跟踪资产和项目状态、角色管理和任务以及进度控制的开源工具非常少。

凡事有利有弊,我们可以看到开源CAT工具显著的优点,已经被广泛应用于翻译和本地化实践之中,甚至是一些大型的商业项目。总体看来,其利大于弊,用户需要有合理的心理预期,不能处处与商业CAT工具(如SDL Trados)一比高下。在翻译实践中,用户可以根据项目的具体需求,结合开源CAT工具的可用功能,进行合理取舍或定制开发。 四、开源计算机辅助翻译技术发展趋势

在互联网技术的推波助澜之下,SaaS(Software-as-a-Service,软件即服务)模式的普及对开源技术的普及起到极大的推动作用,开源CAT工具逐步从单机版走向平台化协作。诸如Transifex、Transwiki、Weblate和Zanata等多功能翻译平台,已经在国际语言服务项目中大显身手。

Transifex是一个B/S架构的集成式翻译平台,通过与上游项目的版本控制系统(Version Control System)紧密集成,使译员的翻译成果能够方便、快速地复用到整个翻译项目中,充分共享语言资源。Fedora系统的本地化便采用了Transifex平台。此外,Community Answers(类似Yahoo Answers的Web 2.0 QnA工具)和文件管理工具Dropfiles也运用了Transifex进行本地化。

Transwiki是中国万维网联盟(W3CHINA.ORG)组织的开放翻译计划(Open Translation Project,简称OTP)。该系统为译员提供了一个易用的界面,利用WIKI协作特性开展W3C及其他重要标准的中文翻译工作。TED(Technology,Entertainment,Design,简称TED)就是此开放翻译计划的受益者,世界各地的翻译志愿者通过该平台为TED演讲翻译字幕。

Weblate是一款高度Git集成的翻译管理系统,能够实现子项目间翻译同步,自定义质量检查,自动链接到源文件及云支持等功能。在翻译过程中,Weblate支持离线翻译,译员可以从该平台上下载文章,进行离线翻译,译完后再上传合并。译文提交后,译员不仅可以自定义检查翻译质量,还能够通过多种方式复查他人的译文。语音控制软件Voice Control便是在Weblate平台进行本地化翻译的。

Zanata是一个基于Web的系统,这个开源的翻译平台旨在管理本地化项目。除了翻译记忆的功能之外,Zanata还提供一个在线翻译编辑器和与REST APIs和命令行工具集成的工作流。译员可以利用Zanata编辑器翻译同一项目,编辑器上的译文保存之后,所有译员便可立即共享查看。项目中的每种语言都有对应的聊天室,方便译员实时沟通。Zanata将集中的本地化资源库和翻译工具综合一体,能够处理整个翻译工作流程,译员无需费时处理格式,可以完全专注于翻译本身。

此外,云计算(Cloud Computing)在多个行业迅速得到了应用,对翻译行业的组织形式、流程、市场产生了新的影响[11]。随着社会网络的普及,无处不在的云计算服务将深入发展。开源CAT系统与开放的云平台的整合,能够为用户提供海量的翻译数据支持,快速响应大型翻译项目的需求,增强翻译业务的处理能力,必将大幅度提升翻译行业的生产效率。 五、结束语

互联网的精神实质是自由、平等和分享,开源翻译技术正是这种精神的体现。近年来,企业用户、语言服务供应商以及广大翻译从业者共同见证了一系列开源翻译技术的发展。开源的机器翻译(如Moses、Apertium)、字幕翻译(如Gaupol、Aegisub)、移动应用翻译(如TransFluent)、翻译管理系统(如Project Open、GlobalSight)等不断涌入国际翻译社区。开源CAT软件的兴起和发展将是持续的发展过程,将对商业CAT软件产生重要影响,并且与之长期共存。IBM在2010年6月与LISA、Welocalize、Cisco和Linux Solution Group等机构将其原来专有的CAT工具IBM TM/2开源,并成立了一个专门的指导小组,此小组负责指导从TM/2所有权解决方案到开源产品的过渡。老牌的商业CAT工具Heartsome也于2014年8月加入了开源CAT工具的行列。它们的加盟将大大推动交互性合作的计算机辅助翻译技术的广阔发展,软件操作灵活性大幅度提高,为个人译者和广大的语言服务商提供了更多的技术选择,对开源翻译技术的发展具有积极意义。随着翻译实践的深入,有关开源CAT软件的研究和开发将会更加深入,更加多样化。这对于优化开源CAT的功能设计,促进商业翻译和本地化技术开发,提高开源社区的翻译效率,降低翻译生产成本,改善高校翻译技术教学现状,都具有举足轻重的作用。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3