【已修改】GMM

#【已修改】GMM| 来源: 网络整理| 查看: 265

【已修改】GMM-UBM框架下的语种识别.ppt

【文档描述】

1、GMM-UBM框架下的语种识别2005-8-25测试库介绍n（1）10个语种：n 世界语，厦门语，客家，广东话，德语，意大利，英语，葡萄牙，西班牙，阿拉伯n（2）5个测试语集合：n A：第一次测试语料库（87句60秒）；n B：第一次评测数据库（90句60秒DA矩阵以此训练后端分类器，实验结果如下图所示：后端GMM混合数的选择使用同一个LDA变换矩阵lda13，如果语料足够，后端混合数增多，识别率是否提高？参数选择和实验结果1、LDA变换矩阵选用lda13；2、后端高斯混合数M=3；3、LID实验结果见word文件。

2、；n C：573分散提取数据库（50句60秒）；n D：573语种识别数据库（149句60秒）；n E：第四次评测数据（10句4分钟）实验结果（1）n 采用GMM-UBM快速高斯得分计算测试库ABCDE识别率（）66.6791.1162.0095.3090端采用了R-LDA算法，该算法主要有4个参数：eta_sw，thresh_eigval_sb，update_eigval_sb和remain_eigvec，4个参数取不同的值得到的LDA变换矩阵是不同的。在上述纯GMM-UBM框架的基础上，组合调试了13个L。

3、00实验结果（2）n 不采用GMM-UBM快速高斯得分计算n 斜体表示比结果（1）多错一句n 测试速度更慢，实时RT2大约为5RT1n 为了验证采用多个GMM Tokenizer是否可行测试库ABCDE识别率（）65.5290.060.0095.3080.称为测试集以纯GMM-UBM为例的带后端分类器的系统框架对每个测试句子来说，前端GMM会得到10维的得分向量，经过LDA变换之后，输入到相应语种的后端分类器进行最大得分决策。其中，LDA变换矩阵的选择和后端GMM混合数的选择很重要。 LDA矩阵的选择n 后。

4、00GMM-UBM自适应图示n 得分较小的那些高斯得分累计造成了混淆。实验结果（3）n 语言模型的实验结果测试库ABCDE识别率（）48.2854.4444.085.9180.00上述三种结果的比较图示LM和GMM加权实验图示（1）*CombinedLMGM10s的语音句子，每个句子对应一个得分向量，从367449个样本不等。 n 把前面介绍的5个测试库中的所有语音切成10s的语音片断，共2512个句子，进行测试，称为测试集1；如果去掉“第一次测试语料库”和“573离散数据库”这两个测试库，则剩下1690个句子，。

5、MSSWeight SLM和GMM加权实验图示（2）加权实验结果对比（1）n A:加权实验结果对比（2）n B:加权实验结果对比（3）n C:加权实验结果对比（4）n D:加权实验结果对比（5）n E:LM和GMM高斯融合实验n 现在高斯融合的结果问题很大，数（Block）应该多一些。训练和测试库语音库说明n 前端UBM和每个语种的GMM的训练语音不变n 使用与前面介绍的5个测试库中“第一次测试语料库”和“573离散数据库”这两个测试库相同环境的语音训练后端每个语种的GMM，每个语种的训练语音约65M左右，切成。

6、实验结果不能接受。改变Tokenizer数目LM得分识别n 6X10(1):阿，广，英，世，德，意n 6X10(2):厦，客，德，意，葡，西数据库ABCDE10个LM48.28 54.4444.085.9180.06X10(1)42.53 51.1144.0用，现在识别流程和他们一样，除了没做LDA外。 n（5）MIT的特征为SDC特征，主要是考虑了语音长时差分的影响。我们实验了文献中给的几组经验参数，7-1-3-7(2)效果整体上优于39维特征。从结果来看，倒谱的维数（第一个参数）似乎不宜取得太多，而特征组合块。

7、75.8480.06X10(2)49.23 54.4442.085.2380.0GMM-UBM和GMM方法比较n 422句（5个集合合并),10X10SDC特征的实验结果(1)n 12-1-3-3(36维),12-1-3-4(48维)n 10-1-3-3(3的识别率。 n（4）目前不做LDA的高斯融合方法很不理想。一方面是语音缺乏，我们目前只能采用大约每种18M的语音，切成5秒大概230300个样本去训练两个混合的高斯分类模型（模型不鲁棒，且容易造成过拟合问题）。另一方面，MIT文献中提到LDA有降维和去相关的作。

8、0维),7-1-3-7(49维)数据库ABCD12-1-3-358.6262.2254.078.5212-1-3-457.4762.2254.081.2110-1-3-362.0765.5658.081.217-1-3-768.9776.6764.092.6在有的测试库出现振荡。 n（3）由于通过GMM(i)得到的索引序列，相对于通过LM(j)的得分，比通过LM(i)得分应该小，我们是否可以认为S(ij)的贡献小于S(ii),或者说S(ij)更加可能造成混淆，在训练不好的情况下造成了10X10的识别率低于10X1。

9、2SDC特征实验结果图示(1)SDC特征的实验结果(2)n 7-1-3-7:C1C7,先去静音再SDC计算n 7-1-3-7(2):C0C6,先去静音再计算SDC.能量代替C0n 7-1-3-7(3):C0C6,先计算SDC再去静音.能量代替C0数据库ABC以帧为语言单位造成自身跳转概率很大）。 n（2）从GMM得分和LM得分加权实验来看，10X10方法时，曲线趋势为只采用GMM得分的影响，10X1方法时，加权方法比只采用GMM略好，但加权值不是很稳定，在一个范围里（比如515）。并且识别率提高不明显，识别率曲线。

10、DE7-1-3-768.97 76.6764.092.6280.07-1-3-7(2)79.31 85.5676.091.9590.07-1-3-7(3)79.31 88.8976.093.96100.0SDC特征实验结果图示(2)小结n（1）目前的语言模型识别率低于GMM的识别率，从实验结果分析，LM会把GMM识别对的给纠错，但是很少能把GMM识别错的给纠对（这10种里头除了英语之外），我们暂且认为一方面是我们算法的精细问题，另一方面可能是这种语言模型方法上的局限（在完全通过声学找到索引序列后再计算语言得分，。

【本文地址】

【已修改】GMM

【已修改】GMM

今日新闻

推荐新闻