DAU暴涨40%,好评如潮,百度翻译凭AI勇攀巴别塔之巅

您所在的位置:网站首页 city百度翻译 DAU暴涨40%,好评如潮,百度翻译凭AI勇攀巴别塔之巅

DAU暴涨40%,好评如潮,百度翻译凭AI勇攀巴别塔之巅

2023-07-02 16:11| 来源: 网络整理| 查看: 265

在「巴别塔倒下」的日子里,人类社会一直没有放弃不同语言之间的翻译。特别是在 2020 年刚刚过去的这个春天,当人类社会意义需要紧密联系在一起的时候,语言翻译,更是承载着各个国家团结一致、共同抗疫的诉求。

也是在刚刚过去的这个季度,百度旗下的翻译产品百度翻译获得众多关注。根据其官方透露的数字,2020 年第一季度,百度翻译产品的 DAU(日活跃用户数量)环比增长 10%,同比更是增长了 40%,在行业增长整体放缓的大环境下,百度翻译实现了逆势增长。

公开资料显示,百度翻译目前已经支撑 200 个语种,近 4 万个翻译方向,每天来自世界各地的翻译请求字符量超过千亿,做一个换算,相当于 2000 部大英百科全书的字符,换句话说,平均每秒钟就要翻译超过 100 万字符。

这些数字所代表的,既是一款语言翻译产品带给全球用户的价值,凸显出「打破语言障碍,使人们随时随地与世界自由沟通」的产品愿景,更是近几年 AI 技术推动产品更新迭代的典型案例,接下来,通过复盘百度翻译产品背后的技术突破与产品创新,不仅可以梳理出一幅 AI 落地实践的路线图,也可以一窥 AI 时代下「重建巴别塔」的可能性。

AI 驱动下的底层技术突破

机器翻译的历史由来已久,现代意义上的机器翻译也几乎和人工智能的诞生同步,上世纪 50 年代中期,美国的研究人员完成了一组俄语自动翻译英语的实验,但在随后的很长一段时间里,机器翻译与人工智能一样,都没有得以大规模应用。

2010 年代,随着深度神经网络在图像、语音领域的突破,以 Google、百度、微软为代表的科技巨头,开始将神经网络引入机器翻译系统中,无论是在实验室还是工业落地的产品上,都取得非常不错的结果,由此也将机器翻译带入到神经网络翻译的新时代。

然而当下的机器翻译也有诸多局限,比如整个训练需要大量语料,极大影响了很多小语种翻译模型的精度;再比如,当机器翻译的需求与场景越来越多样化,如何在文本翻译的基础上进一步攻克语音翻译、特别是针对同传场景的翻译,如何应对特定领域的翻译需求等等,成为摆在业界面前的重要课题。

作为国内较早布局机器翻译产品线的百度,又是如何做的呢?

首先,从模型和数据两个方面入手,解决小语种语料少、模型精度低的难题。模型方面,提出了基于多任务学习的翻译模型、多智能体联合学习模型等,使得多个语言可以共享模型表示。

而在数据方面,从互联网上挖掘多语言数据,并采用回译技术进行数据增强。在一个季度内,将翻译的语种扩充了近 7 倍,目前百度翻译支持 200 种语言互译,成为全球支持语种数量最多的翻译系统,打通了多语言翻译技术从研发到应用的所有环节。

其次,研发全球首个语音到语音的同传系统。这个系统具有低时延、高质量的特点,结合随后提出的可控时延翻译模型、语义单元驱动上下文感知翻译模型等,进一步解决了时间延迟和翻译质量难以平衡的难题。

这个系统可广泛应用到会议同传场景里,用户通过手机扫码即可接入会议,通过耳机收听翻译后的内容。据了解,百度还向全球开放了首个面向真实场景的中英文同传数据集,通过开源数据集与同传评测,推进这个领域的技术交流与发展。

第三,破解多领域翻译的难题。目前,百度翻译采用预训练+精细化训练、以及领域自适应方法,研发面向特定领域的定制翻译引擎。疫情期间,生物医药领域的翻译模型助力抗疫过程中的语言翻译,获得相当多的正面反馈,也从一个侧面展现出百度在多领域翻译中的技术积累。

上述三大底层技术的突破,成为支撑百度翻译快速发展的核心技术,自 2014 年以来,百度翻译先后获得国内外众多科技成果奖项,与此同时,基于上述核心技术突破,百度翻译的产品创新与功能迭代也进入快车道。

AI 驱动下的产品创新与平台进化

由 AI 技术突破引发的机器翻译变革,正深刻影响并定义着新一代翻译产品的创新方向。

2019 年 9 月的时候,百度翻译发布 8.0 版本,新版本带来了第四代词典——AI 词典。与过往纸质词典、电子词典以及互联网词典不同,百度翻译的 AI 词典将复杂的 AI 技术封装到词典的场景中,为用户带来了全新的交互体验。

譬如,利用 OCR 技术,用户只需利用相机拍摄单词即可实现智能取词,从而快速翻译;再譬如,通过个性化的互动词典与考试大数据分析机制,帮助学生用户了解单词类型,构建自己的单词库,还可以结合考试数据,进行有针对性的复习。

更进一步,如果将单词查询看作一个个孤立的点, 那么利用 AI 各项技术,能否实现连点成线并连线成面呢?百度翻译做了一些尝试,一方面,结合用户最近查询的内容与百度的智能分发技术,为用户量身打造属于每个人的推荐机制,利用丰富的视频、音频、文章等,向用户提供单词之外的语言学习新体验。

另一方面,优化文档翻译能力。百度目前的文档翻译支持 Office 格式以及 PDF 的一键上传和翻译,可实现中英、中日、中韩语言的互译,翻译过程不仅能够保留文档样式排版以及翻译对照查看,还能免费导出。考虑到文档翻译需要结合文档的上下文关系,也是对机器翻译能力的重大考验,这背后离不开百度在 OCR、NLP 的技术积累,实现了文档翻译的准确性和处理效率的全面提升。

这些尝试极大拓展了翻译产品的边界,也延伸了语言翻译与语言学习的场景。在苹果 App Store 上,无论是对翻译质量还是产品推荐机制,用户都给予了相当正面的评价。

与此同时,百度翻译也在从产品向平台进化。通过与人人译视界合作,推出了百度视频翻译平台,只需上传视频文件并填写必要信息,即可一站式获取 AI 和人工视频翻译结果。为了方便用户对字幕进行编辑和微调,这个平台提供免费的在线字幕编辑工具,可实现字幕一键翻译、修改、时间轴调整、导出等功能。

而在疫情期间,百度翻译的平台能力得以进一步展现。不仅免费开放了生物医药领域的翻译能力、快速搭建了免费的医疗领域定制化产品,同时利用上文提及的多语言翻译能力,快速增加了大量小语种,满足了用户的翻译需求;并通过上文提及的视频翻译平台,联合中新视频、人人译视界,为国际疫情严峻地区提供防疫视频翻译,包括波斯、意大利、英、韩、日等八种语言,覆盖约76个国家,语种覆盖人口约 25.47 亿人,让「中国经验」在全球抗疫中发挥更大作用。

写在最后:当「重建巴别塔」的愿景遇到人工智能

「打破语言障碍」的努力贯穿在人类历史发展的每一个阶段,机器翻译的技术突破也承载着人类「重建巴别塔」的愿景,过去十年,神经网络的引入,极大提升了翻译的准确率与用户体验,为机器翻译发展提供了新方向。

百度翻译过去几年的探索构成一个样本,得力于百度在 AI 领域的技术积累,百度翻译一方面持续优化并升级机器翻译底层技术架构,另一方面,通过将 AI 技术与翻译场景的结合,为数以亿计用户以及众多垂直领域从业者带来更准确的翻译结果、更易用的翻译体验。

如今,全球化驱动着各国持续不断的经济文化交流,从线上到线下,翻译产品已然成为高频的互联网产品。而随着 AI 技术的持续发展,面向未来的翻译产品,必然是 AI 技术驱动的产品,在这场考验耐力的竞技赛上,依托强大的 AI 技术积累与持续优化的产品迭代,百度翻译在这个春天交出了一份令行业惊艳的答卷,也在实现「使人们随时随地与世界自由沟通」的道路上迈出了坚实一步。(完)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3