【论文综述】基于深度学习语音分离技术的研究现状与进展

您所在的位置：网站首页 › 语音操作系统的进展 › 【论文综述】基于深度学习语音分离技术的研究现状与进展

【论文综述】基于深度学习语音分离技术的研究现状与进展

2024-07-16 07:25| 来源: 网络整理| 查看: 265

基于深度学习语音分离技术的研究现状与进展

本文主要是针对单通道的监督性语音分离技术的综述，描述该技术涉及到的特征、模型和目标三个主要方面；并对语音分离的一般流程和整体框架进行了详细的介绍、归纳和总结。

表格总结

在这里插入图片描述

重要摘录隐式时频掩蔽

在这些方法中，时频掩蔽作为一个确定性的计算过程被融入到具体应用模型中，例如识别模型或者分离模型，他们并没有估计理想时频掩蔽，其最终的目标是估计目标语音的幅度谱甚至是波形，或者提高语音识别的准确率。

深层模型 v.s. 浅层模型

【浅层模型】 ①没有从数据中自动抽取有用特征的能力，重度依赖于人工设计的特征； ②对高维数据的处理能力比较有限，很难通过扩展上下文帧来挖掘语音信号中的时频相关性 ③总的来说，浅层模型复杂度低而且泛化性能好【深层模型】！！当前监督性语音分离的主流模型还是深度模型 ①深度模型具有丰富的结构，可以利用语音数据的很多特性——时序性、时空相关性、长短时谱依赖性和自回归性等； ②因为深度模型可以处理复杂的高维数据，所以常常将上下帧级联输入到深度模型中，以提供更多信息； ③深层模型复杂性更高，但是建模能力强，在数据驱动的方法下可以通过扩大数据量来提高模型的泛化能力。

高斯混合模型

①建模过程与思想：独立地对每个频带被目标语音/噪音主导的TF单元进行建模；给定建模得到的输入特征，计算被目标语音/噪音主导的概率；进行贝叶斯推断，判断当前TF单元是由什么类型的信号主导的——如果被语音主导则标记为1从而得到当前TF单元的掩码；当所有的时频单元都被判断，则得出当前的二值掩蔽估计值。 ②GMM属于生成模型——不能挖掘特征中的区分性信息，从而无法进行区分性训练；因为建模过程是对每一个频带孤立进行的，所以无法利用频带间的相关性信息；在训练和测试过程中的计算代价也很大。 p.s. GMM为代表反映出来的一些特点和问题，并不局限于GMM模型或者浅层模型。深度模型中也会有因为对频带独立建模而忽略频带间相关性的问题等。

TF单元时序间的相关性和建模的相关性

①使用诸如深度堆叠网络（DSN）的层次化模块结构对TF单元的时序相关性进行训练，是基于对语音数据时空结构的考虑； ②但是【建模相关性】考虑的是传入的数据特征是怎样被提取出来的，大多都是对语音信号家常分帧后，独立地对每一个TF单元建模提取得到的。这就是没有考虑到频带间特征相关性的情况。

启发思想——联动生成模型和监督性模型

①原因：大脑高层可能存储了很多关于语音的基本模式，当我们听到带噪语音时，带噪语音就会激发大脑中相似的语音模式响应，这些先后被激活的语音模式组合起来就会形成大脑可理解的语义单元，使得人能够从带噪语音中听清语音。 ②idea：利用生成模型从大量的纯净语音中学习语音的基本谱模式，然后利用监督性学习模型来估计语音基本谱模式的激活量，利用这些激活的基本谱模式可以重构纯净的语音。 p.s. 使用怎样的生成模型，且生成模型和鉴别模型的融合方式也值得考虑。

结构梳理

本篇论文是关于“单通道监督性语音分离”的一个综述，文章架构很清楚—— ①作者先是综合地论述了“单通道语音分离”这个问题的产生背景和当前发展趋势 ②文章主体部分按照【结构】-【时频分解】-【特征提取】-【学习目标】-【训练模型】进行展开 ③最后对文章进行了总结和展望

思维导图

在这里插入图片描述

【本文地址】

【论文综述】基于深度学习语音分离技术的研究现状与进展

【论文综述】基于深度学习语音分离技术的研究现状与进展

今日新闻

推荐新闻