语音识别之MFCC特征提取 |
您所在的位置:网站首页 › 和弦基音 › 语音识别之MFCC特征提取 |
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 ** MFCC特征提取** 前言兜兜转转看了一些文献,总结出自己的一些理解,总结如下(若有错误之处,烦请指点一二): 一、为什么要做MFCC语音识别的第一步是特征提取,目的是可以给模型提供更加高质量的输入以此获得更好的识别效果。常用的特征提取包括线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)。 LPCC:是根据声管模型建立的特征参数,是对声道响应的特征表征MFCC:基于人类的听觉特征提取出来的特征参数,是对人耳听觉的特征的表征。MFCC比较常用,其步骤框图如下所示: 之所以进行预加重是因为,介质作为能量的载体,在声源尺寸一定的情况下,频率越高,介质对声能量的损耗越严重,而预加重可以在一定程度上弥补高频部分的损耗,保护了声道信息的完整性。 2.分帧语音信号在产生的过程中受到发声器官状态变化的影响,而状态变化速度较声音振动的速度要慢得多,因此可以认为是短时平稳的,进行分帧后对每一帧信号进行处理就相当于对特征固定的持续信号进行处理,可以以此减少非稳态时变的影响 3.加窗分帧后每一帧的起始段和末尾段会出现不连续的地方,从而导致与原始信号的误差越来越大。而加窗则可以使分帧后的信号变得相对连续,一般会选择使用汉明窗。 4.FFTFFT是指快速傅里叶变化。通过傅里叶变换,转化到频域。经过转化后可以得到语谱图。换句话说,前面的一些工作都是为了得到语谱图而做的一些准备。 语谱图的定义是语音经过短时傅里叶变换的幅度而画出的2D图,值得注意的是,不一定要非得是经过傅里叶变换而得到。根据定义可知,幅值是我们所需要的重要信息,因此在一些资料当中会进行一个幅值的平方。 语谱图分为两种,一种是窄带语谱图,一种是宽带语谱图: 窄带语谱图:带宽小,时宽大。因此在频率上就比较分的开,能够将语音在时间上的重复部分看得清楚,表现为“横条纹”,即频率分辨率高,容易分辨歌词谐波。![]() ![]() 可以通过语谱图来分析基因频率和共振峰 5.Mel滤波器组Mel滤波器组种的每个滤波器都具有三角滤波特性,这些滤波器都是等带宽的。在高频部分分辨率较低,低频部分分辨率较高,只让某些频率的信号通过,对高频信息的幅度进行一个衰减。 人类的发声系统是由基因信息和声道信息卷积而成的,经过语谱图FFT变换之后卷积变成了乘法,此时取对数运算就能使其变成加法。也就是取FFT和对数运算是为了把卷积信号变成加性信号。 7.DCT
|
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |