【百度贾磊】汉语语音识别技术重大突破：LSTM+CTC详解（22PPT）

您所在的位置：网站首页 › 百度汉语语音 › 【百度贾磊】汉语语音识别技术重大突破：LSTM+CTC详解（22PPT）

【百度贾磊】汉语语音识别技术重大突破：LSTM+CTC详解（22PPT）

2024-07-07 14:52| 来源: 网络整理| 查看: 265

1新智元原创1

作者：王嘉俊

新智元福利

回复1028下载贾磊22页PPT

Google 去年发布了一项研究报告，说在美国年龄介于13到18岁的青年当中，约有55%的人每天使用语音搜索。

语音搜索正在介入到生活的方方面面：获取天气、文字输入、听音乐、车载交互等等。而随着智能硬件的普及，语音交互请求会越来越多。

2011年之后，深度学习技术引入到语音识别之后，大家也一直再问一个问题，深度学习技术还能像刚提出时候那样，持续大幅度提升现在的语音识别技术吗？语音技术能够从小规模的使用转向全面产业化成熟吗?

如果全面产业化成熟，意味着会有越来越多的语音处理需求，但百度语音技术部的负责人贾磊说，如果线上50%的搜索都由语音完成，而机器耗费还和过去一样，那么没有公司能承担起这样的机器耗费。

语音搜索的未来会怎样？技术能持续发展吗？技术的发展能否优化成本结构，同时又保障用户体验？

贾磊说未来这些都是可以解决的。近日，百度提出的新语音识别技术方案是把机器学习领域的LSTM建模和CTC训练引入到传统语音识别技术框架中,并考虑汉语特殊语言特点对汉语识别技术进行革新，从而提出一种全新的汉语语音识别建模方法

这是语音识别在工业上的创新应用，核心在于：百度发现对于单向固定边界LSTM建模之后，继续引入CTC训练，可以通过引入CTC训练的空白自适应的实现Target Delay，从而实现对单向LSTM模型对其右边的Context的精准建模。同时百度对汉语语言的音节，声韵母，音素和状态等多种汉语特有的语音学单元进行深入分析，提出汉语声韵母整体建模的汉语识别解决新方案（传统技术方案都需要建模单元被分成三个状态）。当把以上机器学习方法和汉语声韵母整体建模方案一起引入到语音识别的传统技术框架中后，再结合决策树聚类、跨词解码技术和区分度训练等一系列传统技术，就能实现了汉语语音识别工业产品技术的实质性提升。这样做出来的语音识别系统，有以下几点优势：

语音服务后台成本大大降低（解码器投入变少），有望解决语音搜索应用大规模工业化应用的资源消耗的传统技术难题。而且相比于工业界现有的基于状态建模的语音识别产品技术，相对错误率降低在15%以上，语音识别的精度大幅提升，除此之外，该模型的对口音和远场情况下的识别都有一定的提升。

贾磊在接受采访时说，这是当前世界最前沿的工业级语音识别技术，世界上除了谷歌公司以外，没有人报道成功过类似的技术思路和研究方向，而且谷歌Interspeech2015会议9月披露的该方法的模型规模比我们小10-20倍，语音原始数据也是我们的1/4到1/5，是一个实验室内的探索结果。谷歌实验效果在英文上提升在8%左右。我们在汉语上结合自己的语言特点，探索出声韵母整体建模的技术思路，最终得到的模型精度的提升幅度达到谷歌的2倍。由于该技术最大的难题就在于模型规模和训练数据量增大后的高速训练。因此我们的成果更接近工业产品化的要求，更能代表技术对工业产品的提升。。

新智元对贾磊进行了专访。

【百度贾磊】新智元专访实录

新智元：这个技术在世界上是什么水平？

贾磊：谷歌是今年9月刚刚发的实验室的论文的结果。我们也早在四五个月前就在开展类似的工作。我们和谷歌的工作差别之一是我们是在汉语产品系统上做了这个技术，我们的数据量是谷歌的4-5倍，我们的模型体积是谷歌的10-20倍，我们得到的工业产品的性能提升幅度是谷歌的2倍。这里我想说一下，只有单向多层LSTM模型才能有效应用于产品，因此我谈的都是基于单向多层LSTM模型的提升。除此之外，在这个技术核心有一个问题就是建模单元的选择问题，谷歌做的是英语，他的建模单元选择对我们有很好的启发和借鉴作用。我们做的是汉语，必须基于我们自己的语言特点进行研发。我们选择了一个最适合我们汉语的声韵母，做声韵母整体建模，做了大量的实验，确定了声韵母整体建模的技术方案。最终得到的模型无论精度还是速度，都比现有的识别产品技术有所超越。我觉得这个技术的水平应该是达到一个世界上较高水平的状态。因为我们的模型规模，训练数据和最后得到的提升幅度都远大于谷歌，我们有理由认为我们的技术水平更接近工业产品对技术革新的要求。

新智元：这种新的模型在产品和应用上，会做出怎样的改变？

贾磊：这种模型的好处就是解码速度非常快，刚才我也讲了，它的解码速度可以通过beam裁剪，从2倍实时变到0.05倍实时，这个过程，语音识别率几乎不降低。这个性质对语音识别技术的大规模产业化应用是弥足珍贵的。我们都知道，语音识别技术大规模产业化的问题之一，就是后端机器耗费量很大。虽然深度学习模型的计算未来一定会被专业硬件替代，而解码器的计算量只能由CPU承担（解码器部分大都是逻辑计算）。而采用了这个技术可以显著降低解码器部分的计算量，机器耗费量问题有可能在未来得到解决。其次，这个技术比现在的传统语音识别相对错误率降低15%以上，语音识别的精度可以大幅提升。最后，模型对口音和远场的识别也都有一定的改善。

新智元：那对语音合成和语音理解有帮助吗？

贾磊：我们认为这个技术，CTC的训练，我们摸索成功的CTC对语音合成技术也是有帮助，特别对语音合成的韵律研究也是很有意义的。对于语义理解问题，因为我这个组主要做语音合成和语音识别，可能需要语义理解的专家一起加入进来，看看这种全新的机器学习技术能否提升语义理解的技术水平。。

新智元：你说的降低15%以上是什么概念。

贾磊：是指相对错误率。比如说你现在语音识别率是90%，提升一个点就是相对错误率降低10%。我们在我们的实验中看到的降低幅度超过15%，由于这个算法还在优化迭代中，因此我们对外纰漏了一个比较保守的数字。

新智元：那它现在已经到了一个怎样的级别？就是提升15%之后。

贾磊：目前采用了这个新技术的语音识别率在安静环境普通话条件下，接近97%，这种识别其实假设用户非常配合的状态下得到的最优识别结果。比如假设用户熟悉语音输入系统，用户的普通话相对标准，而且用户说话的手机需要距离嘴比较近。，你可以对外发布这个数据。

新智元：还有什么你过去做不到的东西，有了这个技术之后，你能够做到了？

贾磊：过去没有这个技术只能把一个建模单元分成三份，做三状态建模，语音识别系统框架都被禁锢在一个状态建模的系统中。那么现在可以采用整个建模单元整体建模，建模单元选作音节、半音节、音素都可以，甚至于更复杂的一些组合建模单元，也都可以，那么这样会让语音识别能从传统的理论框架中挣脱出来，会有全新的研究方向，比如说以前语音识别建模单元不需要研究，现在我们需要研究语音识别用什么建模最好，这会在未来是一个重要的研究方向。英文现在他们用的是音素，我们汉语现在用的最好的是声韵母，之后我们还可以声韵母跟音节混合，声韵母跟音素结合，这个方向在未来等于打开了一扇门，帮助人们更好的去做语音识别技术。

新智元：然后这种技术顺应是一种怎样的产业趋势？

贾磊：这种技术特别适合于语音识别大规模工业化，因为这个技术应用点很多，它不但是解码速度快，而且对口音、对远场都有一定的作用，有口音的人识别率会改善很多，距离较远的时候识别率也会改善很多。除此之外，这种技术对汉语的声韵母进行尖峰抽象，就是这个建模单元中最具备特征描述能力的一帧语音被抽取出来代表这个声母或者韵母。而且尖峰抽象是在当前语音句子的整句全局优化的基础上获得的。这客观上使得这样的建模技术可以轻松混合多种数据源（口音，噪音，远场等）进行训练，不同数据源之间的差异会被抹平，最终得到的系统也会对多种复杂场合的识别有很好的改善作用。

所以我感觉是整个对语音识别全方面的一种提升，而且在它解码速度上的优势，会让语音识别在大规模产业化的时候因此而降低成本。

新智元：但它需要的这种设备以及计算性能，能够在产业普及么？

贾磊：是这样的，我们这个语音识别有一个训练的过程，有一个测试过程，那训练过程它的计算量再大，大部分都可以通过专业设备投入一次性采购进行解决的。关键是测试部分，就是上线服务的时候那个机器数目是必须要压缩的，而且机器都必须尽量是工业界主流机器，不能定制机器。用我们新技术训练出来的模型的主要优点就是线上实际产品使用的计算量少很多。

新智元：那它的这种训练时间呢？

贾磊：我们的核心贡献就在于我们研发出的一系列的算法适合大数据、大模型的情况下，LSTM和CTC的结合的高速有效训练。但是注意只是做大数据、大模型，只是做CTC训练，都还不能够显著提高识别性能和工业产品效果。必须把跟深度学习和语音识别的传统领域的技术相结合，这是我那个微博中也反复强调的，这样才能够显著提高线上产品的语音识别率。之前单纯的大数据、大模型已经有人能做了，但是这样得到的模型计算量很大，工业产品很难采用。由于没有和传统语音识别技术相结合，导致CTC训练的多层单向LSTM模型快10年也没有在工业界中成功使用。我们解决了这个难题，这里我们要强调学科融合。我们可以讲讲我们北京的产品团队的艰苦公关过程。我们很努力的干了一阵子，研发出来单向多层LSTM的稳定快速训练和之后的CTC训练，本以为就要成功了。可是当把这个机器学习技术应用到语音识别领域的时候，发现了一系列的语音识别传统问题没解决。于是又开始研究语音识别的建模单元等传统问题。最终还是把机器学习技术和语音识别传统技术相结合，然后1+1大于2，产生化学反应，最终促进了语音识别核心技术整体提升。这里，我想强调一下，获得上述提升，还有一个重要的因素，就是用语音识别学科中的区分度训练技术去提升CTC模型的建模效果。我稍微介绍一下语音识别的区分度训练，能够真正的根据语音识别最后过程，结合声学模型和语言模型，真正end to end优化模型。这个区分度训练实际上，最终提升了CTC模型的效果。也就是说，语音识别的传统技术也可以提升机器学习领域内的算法的效果。学科之间的交叉融合，相互借鉴很重要。

新智元：那它每一次像工业化训练的话，然后它训练时间是多长？

贾磊：一般的话训练一个模型，一般完整的需要几周，甚至一个月都有可能，如果传统的训练，如果不是用创新的算法和创新的技术去做，那做CTC训练技术是不太可能的在几个月内做到的。因为我解释

【本文地址】

【百度贾磊】汉语语音识别技术重大突破：LSTM+CTC详解（22PPT）

【百度贾磊】汉语语音识别技术重大突破：LSTM+CTC详解（22PPT）

今日新闻

推荐新闻