实现中文唇语识别的多种途径

您所在的位置:网站首页 唇语自学教程 实现中文唇语识别的多种途径

实现中文唇语识别的多种途径

2024-01-15 04:49| 来源: 网络整理| 查看: 265

更新: 常用数据集介绍及网站链接:数据集

一、P2Pnet-P2Cnet ——(基于深度学习的唇语识别应用的研究与实现 杨帆 电子科技大学 2018) (一) 综述

中文唇语识别方案概述: 在中文唇语识别研究中,通过对唇语识别本质和汉语语言发音规则的理解,将中文唇语识别过程划分为两个子问题过程:连续嘴唇图片帧映射为拼音语句的拼音序列识别,即”LipPic to Pinyin”(以下简称 P2P)和拼音序列翻译为汉字语句的汉字序列识别,即“Pinyin to Chinese-Character”(以下简称 P2CC),能够降低唇语识别问题难度。如下图所示中文语句唇语识别过程。

在这里插入图片描述

(二) P2Pnet (1)VGG-M 卷积神经网络模型

VGG-M 的网络输入是固定的 224224 尺寸大小的 RGB 的 2D 图像,接着便是核大小不一样的卷积层。每一个卷积层,命名为 conv。在第一个卷积层、第二个卷积层以及第五个卷积后面分别接入一个 Max pooling 层,用于保持网络的平移不变性,进行特征提取和更多的保留图像纹理信息,同时减少网络参数防止网络过拟合。经过多个堆叠的 conv 后的输出,会接入一个三层的 全连接(FullyConnection,以下简称 FC)网络。最后的分类输出是一个 softmax 多分类器。VGG-M网络模型如图所示。 在网络模型中,对每一个卷积层(conv)进行的操作并不完全相同。在第一层卷积层中,进行核大小为 77 步长为 2 的卷积运算,在第二层卷积层,进行核大小为 55 步长为 2 补偿为 1 的卷积运算,在余下三层卷积层,进行核大小为 33步长为 1 补偿为 1 的卷积运算。同时,对第一、二层卷积进行了 LRN(LocalResponse Normalization,以下简称为 LRN) 操作。LRN表示在网络卷积层进行非线性激活操作后,对输出进行局部响应归一化(Local Response Normalization,以下简称为 LRN)处理。

在这里插入图片描述

(2)Batch Normalization(批度规范化)

批度规范化 BN 是对深度网络中的每一个网络层(主要是卷积层)的输入数据进行规范化处理,即对卷积层的激活函数的输入进行处理,使得线性变换后非线性变换前的数据向量的各个维度符合标准正态分布。具体方法是:将特征数据的每一个维度减去数据同一维度的均值,然后再除以数据同一维度的标准差,因为使用的是批量梯度下降算法,均值和标准差通过当前迭代的批度(Batch)计算得到的。 假设有一个 d 维的输入向量X = x1,x2,x3,…xn每一维的数据使用 BatchNormalization 进行数据规范化处理(即使之服从标准正态分布),见公式: 在这里插入图片描述 在网络训练中,公式(4-1)容易造成梯度消散问题。通过对公式(4-1)的结果)进行放大和缩小操作,在一定程度能够缓解网络梯度消散。其计算方法见公式(4-2):

在这里插入图片描述 反向传播过程中,通过梯度下降算法进行学习、更新。批度规范化网络层前向传导过程见公式:

在这里插入图片描述

(3)RNN 网络

循环神经网络 RNN、长短时记忆网络 LSTM 和门控循环单元 GRU 均是自然语言处理中常见的深度学习模型。普通循环神经网络 RNN 能够解决短期时间依赖问题,而一旦问题信息时间步数变长,RNN 性能将会失效。为此,LSTM 应运而上,通过三个门–输入门、遗忘门和输出门的控制来细胞的状态,以达到解决长期的依赖关系。同时,也诞生了许多 LSTM 的变体网络,GRU是其中使用较多的一个网络单元。GRU 通过将遗忘门和输入门结合成一个更新门,且将细胞状态和隐藏状态合并在一起,减少了对门的控制。

(4)Connectionist Temporal Classification(连接主义时间分类)

Connectionist Temporal Classification(简称 CTC)是一种通用的损失函数,主要训练解决未知输入序列和输出序列对齐的网络系统。CTC 考虑了输出序列相对于输入序列的时间扭曲,但并没有对可能的重新排序进行建模。因此,CTC 广泛用于语音识别研究。给定一个长度为T 的输入序列 x ,CTC 假设一个长度为T 的字符序列c 的概率如公式: 在这里插入图片描述 其中,假定每个时步的字符输出在条件上是独立的,Ct表示第t 时步的输出字符, P(Ct |x)表示输出序列在第t 时步时输出字符Ct 的概率。CTC 假定真实输出序列长度为,其中t



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3