机器翻译目前的困境和未来的出路

您所在的位置:网站首页 机器翻译的实现 机器翻译目前的困境和未来的出路

机器翻译目前的困境和未来的出路

2023-04-20 22:08| 来源: 网络整理| 查看: 265

机器翻译发展现状

机器翻译通过应用计算机技术,将书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言,是一项集计算机科学、人工智能、数理逻辑和语言科学于一身的应用工程,它的定位是交叉学科或边缘学科。机器翻译始于上世纪50年代的美国,如今机器翻译的应用已经遍布全球所有具备计算机和互联网条件的国家。随着计算机技术进一步发展和普及,机器翻译软件的处理能力也随之增强。在发达国家和地区,机器翻译不仅用于文字处理系统,分担很大一部分以前由翻译工作者承担的日常工作,而且正在朝着智能声控翻译通信技术的方向发展。由于机器翻译速度快,成本低,已经成为翻译界最受青睐的翻译工具。在我国,机器翻译始于上世纪90年代,金山词霸就是最初的词对词的翻译软件,如今机器翻译已经可以在几分钟内处理大篇幅的文章,成了重要的翻译手段。机器翻译的开发呈现多元化和多种模式,包括翻译软件、在线翻译网络平台(如百度在线翻译、谷歌在线翻译和有道在线翻译)等等,开发规模也不断壮大,开发机构和软件不再限于著名的大公司和企业(如天津大通通译计算机软件研究所的“通译”、中软总公司的“译星智能翻译平台”、北京交大铭泰信息技术有限公司的雅信CAT计辅翻译系统),全国各大城市都有机器翻译的软件开发公司,越来越多的电脑公司也已经把目光和精力投向了机器翻译的开发市场,目前,基于语料库的翻译英汉互译实例正成为未来发展的方向,少数民族语言的翻译也开始初露端倪。当翻译工具或软件普遍流行之后,很多人会认为有了这些东西,不懂外语也能做翻译了,事实真的如此吗?

机器翻译还存在的问题 我们借用罗季美、李梅(2012、2014)以“汽车技术文献翻译语料库”为基础,对机器译文和人工译文进行的平行对比研究所得出的数据来说明问题。他们通过1000句的抽象对比,发现机器翻译获得的标准译文只占10.3%,而错误译文达89.7%,把译文错误划分成一级错误和二级错误,一级错误包括词汇错误,句法错误,符号错误,分别占84.13%,42.45和4.95的比率。词汇错误包括:术语错译、连词错译、词性错译、词汇缩写错译、词汇漏译、词汇替代错译、词汇不译;句法错误包括:词序错译、名词短语错译、动词短语错译、介词短语错译、被动语态错译、动词不定式错译、分词错译。至于二级错误在这里就不再详细说明。对于真正懂外语的人来说,机器翻译和人工翻译很容易区分,机器翻译得译文第一眼就能让人看出问题:表达僵硬、结构混乱、逻辑不严、意义不清。这样描述岂不是全面否定了当今社会机器翻译的成果和否定机器翻译的发展大趋势?当然不是,首先要树立两个观点:第一、机器翻译在批量上确实解决了很多词汇问题,在译文方面完成了粗加工,形成了半成品,这个过程的工作量非常之大,占据了人工翻译的大部分时间和精力,有了机器翻译,节省人力和大量时间,提高翻译的速度,从质的角度来说,它可能没发挥太大作用,只有10.3%的标准,但从量的角度说,它发挥了关键性作用;第二、机器翻译的译后编辑是机器翻译不可缺少的组成部分,从质的角度说,它是关键的阶段,操作和使用翻译软件很容易,译后编辑才是翻译人员专业素质的体现。 机器翻译至今存在的问题依然是结构歧义和语义歧义,这些问题的出现是随着机器翻译的发展带来的。机器翻译经历了三个阶段:第一代的机器翻译,只能做词对词的简单翻译,只起到查词典的作用,并不能进行真正的语言翻译;第二代机器翻译开始重视语法,尤其是句法的分析。语言学理论的突破导致了机器翻译的发展;第三代机器翻译具有较强的语义分析手段,较多地采用了语义学和语用学信息,能较好地解决句子歧义问题。放在中国的历史背景下,我们今天才进入第二、第三阶段。

翻译的复杂性表现在翻译涉及到各种因素和各个学科的综合运用,包括译者的目的、读者对象、语体、跨文化、宗教、美学、语境等多因素的考量和词汇学、语法学、语义学、语用学等多学科的综合应用,加上翻译技巧的多样性和翻译策略的多元化;自然语言的复杂性主要表现在(a)句法的复杂性,句法成为专门的学科,句法的差异直接影响到意义的表达效果,(b)语义的复杂性,语言词汇丰富,一词多义,一义多词,近义词,反义词,褒义词,贬义词,中性词,相互交织,错综复杂,(c)语篇的复杂性,包括语篇结构、思想、逻辑、主题和构建语篇的语言技巧和策略。目前的机器翻译尚未能够有效地纳入这些因素,翻译效果远未达到人工水平。结构歧义表现在句子凌乱、语法错误,句与句之间意义不连贯,语义歧义表现在措辞不当,词义错误,甚至导致前后矛盾、不知所云。

机器翻译的局限性 机器翻译句法的局限性 机器翻译最早只能是词对词的翻译,只起到词典的功能和作用,句法的应用使得句子的翻译得以进行,使用直接翻译法可以解决,以英汉为例,用百度在线翻译做实验,当原文和译语(目的语)有高度的相似性时,可以直接对应翻译,如原文“他是个老师。”目的语就是“Heis a teacher”,随着原文结构复杂程度的增加,机器翻译的效果则大打折扣,所以在句法层面上说,机器翻译依然停留在结构比较简单的句子上,同时,原文和机译译文并不能对等互换操作,说明英汉互译随机性比较强,自由空间很大,还没有足够的严谨和科学。

机器翻译语义和语用的局限性 其实从上面的例子我们就已经看出,英汉句法上的差异已经影响到语义了,机器翻译倾向于对等处理,而实际上不对等现象导致了机译的错误,人工翻译能超越不对等,从深层意义去处理表层的差异,但总的来说,句法上的问题导致的翻译错误主要是逻辑混乱,无法在句与句之间形成意义链,而语义上的问题,主要体现的概念上,即词义选择上。语义部分问题需要运用到语义学的语素分析和翻译中的语素选择问题,对于多义词(字)要考虑语境的制约。语义歧义主要根源在于一词多义,机器翻译首先选择高频词义,但词义要依赖具体语境需要,以字为基本单位的汉语,在汉译英中更容易出现语义上的错误。

机器翻译段落,句法和语义问题都全部暴露,我们无法看到具有语篇特征,句与句之间有逻辑和语义连贯的译文,而很大程度上像是一堆文字。像这样的情况,我们需要制定更加宏观的,能够驾驭段落,甚至篇章的翻译规则。语用因素也是翻译中不可忽略的部分,由于语境的制约和文化差异,有些材料需要做出归化或异化的处理,语用规则的介入将解决语境和文化制约的翻译过程。最棘手的问题还是上下文语境问题,目前在机器翻译领域,语用问题还没有真正得到解决。除了句法和语义,人工翻译遇到的其他问题机器翻译也同样遇到,甚至还多,而且人工能做到的机器不一定能做到。人工翻译可以在宏观上为语篇上进行布局,也可以在微观上斟酌词句,机器翻译往往做不到。人工很难翻译的地方,机器同样也很难处理,这些方面包括:(1)人名、地名;(2)歇后语;(3)双关语;(4)成语;(5)俚语;(6)格言;(7)名言隽语;(8)习惯用法等等。人工翻译能统筹各种因素,包括语言、语境、语法、语用、跨文化、美学、以及读者对象、翻译目的和各种翻译技巧和策略的综合应用,机器目前做不到。从以上句法、语义和其他各个层面的观察,我们发现机器翻译效果与标准要求依然很远,必须加强句法学、语义学向计算机语言的转换的研究和实践,目前这方面似乎遇到了瓶颈,机器翻译后编辑工作依然是一个繁重而且关键的工作。

机器翻译的发展前景和出路 语料库语言学的诞生和应用,为机器翻译提供了新的思路。谈到机器翻译的发展前景和出路,离不开三个关键词:语料库、大数据和云计算。以英汉为例,汉英互译平行语料库的诞生,是计算机辅助翻译的里程碑意义的大事,单纯依赖后台编程来实现规则的应用的机器翻译,已经遇到了难于突破的瓶颈,至于原因上面已经提到:翻译自身的复杂性、自然语言的复杂性和机器自身的局限性。语料库的开发和应用,开创了机器翻译一个全新的思路,语料库可以用于查询,也可以对语料进行分类和分析,对翻译实践和翻译研究都非常有帮助。翻译平行语料库的原理是呈现原文和译文进行对比,我们可以通过输入所需要翻译的原文,计算机在语料库中查询与此相同或相近的表达,语料库不一定给提供直接的译文,但是能够提供大量可供选择的参考资料,语料越丰富,与对比的原文就有更多更高的相似度,语料库的发展使得原文与语料的相似度无限接近。由于翻译的复杂性,影响翻译的因素很多,现在很多翻译软件都已经考虑到这一点,在语料库的操作上加入了很多参数标签,缩小搜寻的范围,这些标签包括各种语境标签、文化标签、文体标签、行业术语标签、技巧策略标签等等,往往是标签越详细,得到的结果越精确。应用语料库的优势在于翻译会更加统一,讨论和借鉴的空间会更大,不再存在句法语义的错乱问题。 目前语料库尚不成熟的地方是不容易找到与原文一摸一样的平行对比语料,通过不断扩大平行语料库的规模,原文区与语料库的相似度才能不断地接近,这就需要更多的数据,所以跟随语料库而来的是大数据问题,我们所处的大数据时代含义很宽泛,但与翻译相关的是平行语料库的应用。语料库越来越大,说明数据越来越大,数据的运行速度和运行安全成为必须解决的问题了,云计算就成为计算机网络技术新的发展趋势了。 “云”指的是系统中的计算机群,其规模和能力理论上不受限制,而且可以在网络中的任意地方,如谷歌的网络服务(包括搜索引擎谷歌地球等)架构在由多达200多万台计算机构成的云计算平台之上,Amazon、微软、IBM等的云计算平台也都达到了几十万台计算机的规模。借助云计算,网络服务提供者可以在瞬息之间,处理数以千万计甚至亿计的信息,实现和超级计算机同样强大的效能。传统的数据存放和处理都在本地电脑或某个固定的网络服务器上,云计算则把这一切都放在互联网上,只有通过账户和特别的加密和安全系统保护的账户信息,除拥有权限的人以为,其他人都无法接触,这是非常安全的。所以,语料库规模越来越庞大,云翻译将是我们未来机器翻译的发展方向。云翻译可以对海量的语料库信息进行采集、传输、存储和利用。在云翻译平台上,翻译公司可以将人才储备达到数万人,还有庞大的专家队伍,涵盖各行各业,方便交流,翻译的速度和效率会倍增。 通过大量的实验观察,我们发现阻碍机器翻译发展的瓶颈问题依然是结构歧义和语义歧义,原因归结为三大点:翻译的复杂性、自然语言本身的复杂性和机器翻译的局限性,我们认为更重要的是句法学、语义学、甚至语用学和其他各个语言学科的研究成果,没有及时转换成计算机语言,服务于机器翻译,要实现这一目标,语言研究专家与计算机专家共同合作才行;另一个发展趋势是翻译平行语料库的诞生、应用和发展,需要大数据的推动和计算机云计算的应用,以保证数据的安全和高效采集、传输、存储和利用。所以归纳起来,机器翻译未来的发展有两条路,第一、加强语言学研究成果向计算机语言转化,以突破目前的结构歧义和语义歧义瓶颈;第二、利用翻译平行语料库,通过大数据驱动和云计算技术,实现翻译的安全和高效,第二条路正迎合当前的大数据和云计算时代需要,前途似乎更加广阔。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3