【已修改】GMM

您所在的位置:网站首页 lda得分 【已修改】GMM

【已修改】GMM

#【已修改】GMM| 来源: 网络整理| 查看: 265

【已修改】GMM-UBM框架下的语种识别.ppt

【文档描述】

1、GMM-UBM框架下的语种识别2005-8-25测试库介绍n(1)10个语种:n 世界语,厦门语,客家,广东话,德语,意大利,英语,葡萄牙,西班牙,阿拉伯n(2)5个测试语集合:n A:第一次测试语料库(87句60秒);n B:第一次评测数据库(90句60秒DA矩阵以此训练后端分类器,实验结果如下图所示:后端GMM混合数的选择使用同一个LDA变换矩阵lda13,如果语料足够,后端混合数增多,识别率是否提高?参数选择和实验结果1、LDA变换矩阵选用lda13;2、后端高斯混合数M=3;3、LID实验结果见word文件。

2、;n C:573分散提取数据库(50句60秒);n D:573语种识别数据库(149句60秒);n E:第四次评测数据(10句4分钟)实验结果(1)n 采用GMM-UBM快速高斯得分计算测试库ABCDE识别率()66.6791.1162.0095.3090端采用了R-LDA算法,该算法主要有4个参数:eta_sw,thresh_eigval_sb,update_eigval_sb和remain_eigvec,4个参数取不同的值得到的LDA变换矩阵是不同的。 在上述纯GMM-UBM框架的基础上,组合调试了13个L。

3、00实验结果(2)n 不采用GMM-UBM快速高斯得分计算n 斜体表示比结果(1)多错一句n 测试速度更慢,实时RT2大约为5RT1n 为了验证采用多个GMM Tokenizer是否可行测试库ABCDE识别率()65.5290.060.0095.3080.称为测试集以纯GMM-UBM为例的带后端分类器的系统框架对每个测试句子来说,前端GMM会得到10维的得分向量,经过LDA变换之后,输入到相应语种的后端分类器进行最大得分决策。 其中,LDA变换矩阵的选择和后端GMM混合数的选择很重要。 LDA矩阵的选择n 后。

4、00GMM-UBM自适应图示n 得分较小的那些高斯得分累计造成了混淆。 实验结果(3)n 语言模型的实验结果测试库ABCDE识别率()48.2854.4444.085.9180.00上述三种结果的比较图示LM和GMM加权实验图示(1)*CombinedLMGM10s的语音句子,每个句子对应一个得分向量,从367449个样本不等。 n 把前面介绍的5个测试库中的所有语音切成10s的语音片断,共2512个句子,进行测试,称为测试集1;如果去掉“第一次测试语料库”和“573离散数据库”这两个测试库,则剩下1690个句子,。

5、MSSWeight SLM和GMM加权实验图示(2)加权实验结果对比(1)n A:加权实验结果对比(2)n B:加权实验结果对比(3)n C:加权实验结果对比(4)n D:加权实验结果对比(5)n E:LM和GMM高斯融合实验n 现在高斯融合的结果问题很大,数(Block)应该多一些。 训练和测试库语音库说明n 前端UBM和每个语种的GMM的训练语音不变n 使用与前面介绍的5个测试库中“第一次测试语料库”和“573离散数据库”这两个测试库相同环境的语音训练后端每个语种的GMM,每个语种的训练语音约65M左右,切成。

6、实验结果不能接受。 改变Tokenizer数目LM得分识别n 6X10(1):阿,广,英,世,德,意n 6X10(2):厦,客,德,意,葡,西数据库ABCDE10个LM48.28 54.4444.085.9180.06X10(1)42.53 51.1144.0用,现在识别流程和他们一样,除了没做LDA外。 n(5)MIT的特征为SDC特征,主要是考虑了语音长时差分的影响。 我们实验了文献中给的几组经验参数,7-1-3-7(2)效果整体上优于39维特征。 从结果来看,倒谱的维数(第一个参数)似乎不宜取得太多,而特征组合块。

7、75.8480.06X10(2)49.23 54.4442.085.2380.0GMM-UBM和GMM方法比较n 422句(5个集合合并),10X10SDC特征的实验结果(1)n 12-1-3-3(36维),12-1-3-4(48维)n 10-1-3-3(3的识别率。 n(4)目前不做LDA的高斯融合方法很不理想。 一方面是语音缺乏,我们目前只能采用大约每种18M的语音,切成5秒大概230300个样本去训练两个混合的高斯分类模型(模型不鲁棒,且容易造成过拟合问题)。 另一方面,MIT文献中提到LDA有降维和去相关的作。

8、0维),7-1-3-7(49维)数据库ABCD12-1-3-358.6262.2254.078.5212-1-3-457.4762.2254.081.2110-1-3-362.0765.5658.081.217-1-3-768.9776.6764.092.6在有的测试库出现振荡。 n(3)由于通过GMM(i)得到的索引序列,相对于通过LM(j)的得分,比通过LM(i)得分应该小,我们是否可以认为S(ij)的贡献小于S(ii),或者说S(ij)更加可能造成混淆,在训练不好的情况下造成了10X10的识别率低于10X1。

9、2SDC特征实验结果图示(1)SDC特征的实验结果(2)n 7-1-3-7:C1C7,先去静音再SDC计算n 7-1-3-7(2):C0C6,先去静音再计算SDC.能量代替C0n 7-1-3-7(3):C0C6,先计算SDC再去静音.能量代替C0数据库ABC以帧为语言单位造成自身跳转概率很大)。 n(2)从GMM得分和LM得分加权实验来看,10X10方法时,曲线趋势为只采用GMM得分的影响,10X1方法时,加权方法比只采用GMM略好,但加权值不是很稳定,在一个范围里(比如515)。 并且识别率提高不明显,识别率曲线。

10、DE7-1-3-768.97 76.6764.092.6280.07-1-3-7(2)79.31 85.5676.091.9590.07-1-3-7(3)79.31 88.8976.093.96100.0SDC特征实验结果图示(2)小结n(1)目前的语言模型识别率低于GMM的识别率,从实验结果分析,LM会把GMM识别对的给纠错,但是很少能把GMM识别错的给纠对(这10种里头除了英语之外),我们暂且认为一方面是我们算法的精细问题,另一方面可能是这种语言模型方法上的局限(在完全通过声学找到索引序列后再计算语言得分,。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3