机器翻译的历程

2024-01-04 06:43| 来源: 网络整理| 查看: 265

机器翻译自出生到现在经历了四个时期的演变和发展：

基于规则的机器翻译机器翻译的源头，可以追溯至1949年，资讯理论研究者Warren Weave正式提出了机器翻译的概念。五年后，也就是1954年，IBM与美国乔治敦大学合作公布了世界上第一台翻译机IBM-701。它能够将俄语翻译为英文，别看它有巨大的身躯，事实上它里面只内建了6条文法规则，以及250个单字。但即使如此，这仍是技术的重大突破，那时人类开始觉得应该很快就能将语言的高墙打破。但其实它并未提到翻译所用到的例子是经过了精心的挑选和测试，并排除了任何歧义。这个系统实际上无外乎形同一本常用语手册。然而，包括加拿大、德国、法国、尤其是日本，各国间就此展开了竞争，所有人都加入了机器翻译的比拼。但是由于规则太复杂，太费语言学家，老头子顶不住，发展停滞了。

基于实例的机器翻译在全世界都陷入机器翻译低潮期，却有一个国家对于机器翻译有着强大的执念，那就是日本。日本人的英文能力差举世皆知，也因此对机器翻译有强烈的刚性需求。日本京都大学的长尾真教授提出了基于实例的机器翻译，也就是别再去想让机器从无到有来翻译，我们只要存上足够多的例句，即使遇到不完全匹配的句子，我们也可以比对例句，只要替换不一样的词的翻译就可以。这种天真的想法当然没有比基于规则的机器翻译高明多少，所以并未引起风潮。这个方法虽然不算是一次彻底的变革，但显然是向前迈进了一大步。仅在5年后，革命性的发明——统计型机器翻译出现了。

基于统计的机器翻译统计模型的思路是把翻译当成机率问题。原则上是需要利用平行语料，然后逐字进行统计。例如，机器虽然不知道“知识”的英文是什么，但是在大多数的语料统计后，会发现只要有知识出现的句子，对应的英文例句就会出现“Knowledge”这个字。如此一来，即使不用人工维护词典与文法规则，也能让机器理解单词的意思。这种机器翻译方法使用的文本越多，翻译效果就越佳。事实上这种翻译方法已经相当不错，后续很多公司的翻译软件都是基于统计的翻译方式。

神经网络机器翻译到了2014年，机器翻译迎来了史上最革命的改变——“深度学习”来了！通过提取语言句子的特征来进行翻译，尤其是RNN神经网络（该网络可以记住之前的结果，对文本来说即为之前的单词）广泛应用。工作原理大概是一个网络用来特征提取编码，另一个神经网络用来解码回归原本的语言文本。

【本文地址】

机器翻译的历程

机器翻译的历程

今日新闻

推荐新闻