藏汉统计机器翻译研究

您所在的位置：网站首页 › 百度翻译藏汉 › 藏汉统计机器翻译研究

藏汉统计机器翻译研究

2024-04-27 07:25| 来源: 网络整理| 查看: 265

 喜欢 0

阅读量：

213

作者：

刘智文

展开

摘要：

基于统计的机器翻译方法是目前机器翻译领域主流的研究方法.现存的统计机器翻译模型大体可以分为基于词的模型,基于短语的模型和基于句法的模型三大类.其中基于词的翻译模型提出的时间最早,其数学描述比较严密,但是由于在翻译过程中以词作为基本的翻译单位,难以使用语言的上下文信息,故而在词义消歧,语序调整等方面都存在很大的不足.基于短语的翻译模型以短语为基本翻译单位,可以有效利用语言的上下文信息.基于短语的模型也有缺乏全局信息,远距离调序困难等缺点.基于句法的模型从理论上来讲能够利用语言更深层次的信息,具有更大的潜力,但该类模型目前还没有取得人们预期的突破性进展.短语模型是一种十分健壮的模型,模型本身对训练,解码过程中可能出现的很多错误不是很敏感,因而在处理真实语料时往往能有较好的效果. 本文的主要工作是构建一个基于短语的藏汉统计机器翻译系统,利用短语模型的健壮性和可扩展性,通过在系统的训练和解码过程中引入一些语言学信息和统计信息来提高短语模型系统的性能.由于GIZA++的双语聚类工具mkcls在对藏汉双语词聚类过程还存在一些缺陷,本文利用了一些语言学信息对此予以改进.具体的做法是采用史晓东老师的藏文和汉语分词标注工具进行分词标注,根据词汇的词性标记对藏文和汉语词条进行双语词聚类,从而得到更好的藏文和汉语词类模板,提高翻译系统的性能;我们还使用一部藏汉双语词典,利用词典里的词条对齐可靠性高的特点,将其加入到语料的词对齐训练当中,以提高系统的词对齐正确率进而提高整个系统的翻译性能;还有,利用藏汉词典的词性信息,对语料库中出现的低频词采用藏汉双语词聚类替换的策略获得低频词的聚类翻译模板以缓解数据稀疏问题;另外,由于语料库中真实的藏文文本的在分词后词尾大部分带有音节符而少部分没有音节符,这样就造成了藏文语料中词汇表数量的增加,从而引起数据的更加稀疏.由于有无音节符本身不会改变藏文词汇意思,根据藏文的这个特点,我们在对藏文语料进行预处理时将每个词后所带的音节符删除,以降低词汇表的规模,缓解数据稀疏,最终达到提高系统性能的目的.本文的最后还探讨了语言模型对机器翻译效果的影响.

展开

关键词：

对齐模板双语词聚类词聚类替换藏文分词条件随机场

学位级别：

学位：工学硕士

DOI：

http://dspace.xmu.edu.cn:8080/dspace/handle/2288/50866

被引量：

【本文地址】

藏汉统计机器翻译研究

藏汉统计机器翻译研究

今日新闻

推荐新闻