Deep |
您所在的位置:网站首页 › 唇语视频对比失败怎么办 › Deep |
Deep Audio-Visual Speech Recognition
作者:Triantafyllos Afouras, Joon Son Chung, Andrew Senior, Oriol Vinyals, Andrew Zisserman 原文链接 0 摘要这项工作的目的是识别有语音或无语音的说话人说的短语和句子。不同于以前的工作(只能识别有限数量的单词或短语),我们将唇语作为一个开放世界的问题来解决——视频中无限制的自然语言句子。我们主要的贡献:1、我们比较了两种读唇语的模型,一种是用CTC损失,另一种是用sequence-to-sequence损失,这两个模型都是基于transformer self-attention架构。2、我们研究唇语在多大程度上可与音频语音识别相辅相成,特别是当音频信号嘈杂时。3、我们引入并公开发布了用于视听语音识别的新数据集LRS2-BBC,其中包括来自英国电视台的数千个自然句子。 我们训练的模型大大超过了唇读基准数据集上所有先前工作的性能。 1 介绍唇语阅读(“lip reading”也翻译为唇读)在实际情况中往往会遇到一些问题,比如说:“p”和“b”在嘴型上都是一样的,不过这种情况可以通过联系上下文或者用语言模型,在一定程度上得到解决。 唇读机器会打开许多应用程序:在嘈杂的环境中发出“命令”,向电话发送指令或消息;转录和重新配音存档的无声电影;解决多人同时语音以及总体上改善自动语音识别的性能。 由于在计算机视觉任务中众所周知的两个发展,现在这种自动化成为可能:使用深度神经网络模型[30,44,47];以及大规模可用的训练数据集[41]。在这种情况下,唇读模型基于最近开发的编码器-解码器体系结构,用于语音识别和机器翻译[5、7、22、23、46]。 本文的目的是开发用于唇读句子的神经转录体系结构。我们比较了两种模型:一种使用连接器时间分类(CTC)损失[22],另一种使用序列到序列(seq2seq)损失[9,46]。两种模型都基于transformer self-attention架构[49],因此可以将两种损失的优缺点进行直接比较,而其余的模块则尽可能多。本文开发的用于训练和评估模型的数据集是基于数千小时的视频,这些视频中有说话人的脸以及说话的字幕。 我们还研究了唇读如何促进基于音频的语音识别。关于这种贡献的文献很多,特别是在嘈杂的环境中,在某些相反的情况下,某些音频的derived measure可能会导致耳聋或重听的唇读。为了研究这一方面,我们训练了一个模型来识别音频和视觉输入中的字符,然后系统地干扰音频通道。 我们的模型在字符级别输出。对于CTC,这些输出彼此独立。在sequence-to-sequence损失,将隐式学习语言模型,并且该体系结构包含了一种新颖的双重关注机制,该机制可以仅对视觉输入,仅对音频输入或对二者进行操作。第3节中描述了这些体系结构。这两种模型都通过beam search进行解码,我们可以选择在其中合并外部语言模型。 在第4节中,我们描述了用于训练和评估模型的大型数据集LRS2-BBC的生成和统计信息。数据集包含说话的面孔以及所说的字幕。这些视频包含“自然(in the wild)”面孔,这些面孔具有各种各样的姿势,表情,光线,背景和种族。第5节介绍了网络训练,我们在其中汇报了一种用于加速训练的课程学习形式。最后,第6节评估模型的性能,包括仅用于视觉(嘴唇)输入,音频和视觉输入以及音频和视觉流之间的同步误差的模型。 关于内容:此呈件基于会议论文[12]。我们用基于Transformer的模型的两个变体替换了原始论文中的WLAS模型[49]。在[2]中发表了一个变体,而第二个变体(使用CTC损失)是本文的原始贡献。我们还用[45]提出的基于ResNet的可视化前端进行了更新。 与[12]中提出的模型相比,新的前端和后端体系结构对字误码率(WER)的绝对改进贡献超过22%。最后,我们公开发布了一个新的数据集LRS2-BBC,它将取代[12]中的原始LRS数据集,由于许可证限制,该数据集无法公开。 2 背景 2.1 CTC vs sequence-to-sequence 架构在大多数情况下,用于序列预测的端到端深度学习方法可以分为两种类型。 唇读(Lip reading)使用非深度学习方法进行唇读的工作量很大。 在[56]中对这些方法进行了全面的回顾,在此不再赘述。与识别完整的单词或句子相反,许多论文已使用卷积神经网络(CNN)从静止图像预测音素(phonemes)[37]或视位素(visemes)[29]。 音素是共同构成一个语音词的最小的可分辨声音单位。视位素是其视觉等同物。 为了识别完整的单词,Petridis等人[39]在离散余弦变换(discrete cosine transform,DCT)和深度瓶颈特征(deep bottleneck features,DBF)上训练LSTM分类器。同样,Wand等[50]使用具有HOG输入功能的LSTM来识别短语。唇读中手工特征继续使用的原因大概是缺乏训练数据。 现有的数据集仅具有少量主题的视频,以及有限的词汇(少于60个单词),这也是进步的障碍。Chung和Zisserman [13]通过在电视广播中使用面孔来组合500字的词汇量的LRW数据集来解决小词典问题。 但是,与任何词级分类任务一样,鉴于必须预先知道词的边界,因此该情形仍与现实世界相去甚远。Assael等[4]使用基于CNN和LSTM的网络和(CTC)[22]来计算标签。 这汇报了GRID数据集的约束语法和51个单词的词汇具有很强的独立于说话者的性能[17]。 在我们的早期工作中[12],我们基于[7]的LAS ASR模型提出了WLAS序列到序列模型(WLAS的缩写是Watch,Listen,Attend和Spell,而LAS则是Listen,Attend和Spell)。WLAS模型具有双重attention机制——一种用于视觉(嘴唇)流,另一种用于音频(语音)流。它将语音句子转录为字符,并且可以仅处理视觉输入,或者仅音频输入或者两者兼有。 在独立和并行的工作中,Shillingford等人[43],设计一个唇读流水线(pipeline),该流水线使用一个输出音素概率并经过CTC损失训练的网络。 在inference时,他们使用基于有限状态换能器(transducers)的解码器将音素分布转换为单词序列。该网络在由YouTube视频构成的超大规模唇读数据集上进行了训练,并实现了出色的40.9%词错误率。 视听语音识别(Audio-visual speech recognition) 视听语音识别(AVSR)和唇读的问题紧密相关。Mroueh等[36]使用前馈深度神经网络(DNN)在大型非公共视听数据集上进行音素分类。事实证明,将HMM与手工制作或预先训练的视觉功能结合使用很普遍——[48]使用DBF编码输入图像;[20]使用DCT;[38]使用经过预训练的CNN对音素进行分类;这三种功能都与HMM结合使用,可以对语音数字或孤立的单词进行分类。与唇读一样,几乎没有尝试开发可推广到实际环境的AVSR系统。 Petridis等[40]使用的体系结构的扩展版本[45]从原始像素和波形中学习表示形式,然后将它们连接起来并馈入双向循环网络,该双向循环网络共同对音频和视频序列进行建模并输出单词标签。 3 架构在本节中,我们描述用于视听语音识别的模型架构,在此基础上,我们基于最近提出的Transformer模型[49]探索了两种变体:i)用于以seq2seq方式训练的 encoder-decoder 注意力结构,以及用 CTC loss 训练的 self-attention 模块。图2概述了该体系结构。通用模型接收两个输入流,一个输入流用于视频(V),一个用于音频(A)。 对于声学表示(acoustic representation),我们使用321维频谱幅度,该幅度是在40kHz窗口和10ms跳长(hop-length)下以16 kHz采样率计算的。 由于视频以25 fps(每帧40毫秒)采样,因此每个视频输入帧对应4个声学特征帧。 我们将音频功能分为4组,以减少稳定CTC训练常用的输入序列长度[8,42],同时为两种模式实现相同的时间尺度。 3.2 视觉模块 输入图像为224×224像素,以25 fps采样,并包含说话者的脸部。 如图3所示,我们裁剪了一个112×112的补丁,覆盖了嘴周围的区域。要提取表示嘴唇运动的视觉特征,我们使用基于[45]的时空视觉前端。 该网络在输入图像序列上应用3D卷积,其滤镜宽度为5帧,然后是2D ResNet,可随着深度逐渐减小空间尺寸。 附录A中详细列出了这些层。对于 我们考虑的两个变体都使用相同的基于self-attention的编码器体系结构。编码器是多头self-attention层的堆栈,其中输入张量同时用作attention的查询,键和值。 如图2(a)所示,每种模式都使用单独的编码器。输入序列顺序的信息以正弦函数形式的固定位置嵌入被馈送到模型。 3.4 Sequence-to-sequence Transformer (TM-seq2seq)在此变体中,使用单独的attention heads来引入(attending on)视频和音频嵌入。 在每个解码器层中,所得的视频和音频上下文在通道范围内连接在一起并传播到前馈块。两种模态的关注机制都将前一解码层的输出(或在第一层的情况下为解码器输入)作为查询接收。解码器产生的字符概率直接与标准答案标签(ground truth labels)匹配并经过交叉熵损失训练。 附录B中提供了有关多头注意力(multi-head attention)和前馈构建模块的更多详细信息。 3.5 CTC Transformer (TM-CTC)TM-CTC模型将视频和音频编码连接起来,并通过一堆self-attention/前馈模块传播结果,该模块与编码器中使用的模块相同。 网络的输出是每个输入帧的CTC后验概率,整个堆栈都经过CTC损失训练。 3.6 外部(External) 语言模型(LM)为了在推理中解码这两个变量,我们使用了字符级语言模型。 它是一个递归网络,具有4个单向层,每个层有1024个LSTM单元。 语言模型经过训练,可以一次预测一个字符,仅接收前一个字符作为输入。 两种模型的解码都是通过从左到右的波束搜索进行的,其中LM对数概率通过浅融合[26]与模型的输出组合在一起。 附录C和D中提供了有关解码的更多详细信息。 3.7 单模态模型(Single modality models)当仅存在两种形式时,可以使用本节中描述的视听模型。代替使用TM-seq2seq的注意力向量或TM-CTC的编码,仅使用来自可用模态的向量。 4 数据集在本节中,我们描述了一种多级流水线(multi-stage pipeline),这种多级流水线用于自动生成视听语音识别的大规模数据集LRS2-BBC。 使用此流水线,我们已经能够收集数千小时的口头句子和短语以及相应的面部表情。我们使用了各种BBC程序,从Dragon's Den到Top Gear和Countryfile。 图4总结了处理流程。大多数步骤都是基于[13]和[14]中描述的方法,不过我们在此简要概述了该方法。 视频准备 一个基于Single Shot MultiBox Detector(SSD)[33]的CNN面部检测器用于检测各个帧中的面部外观。 与先前工作中使用的基于HOG的检测器[27]不同,SSD可以从各个角度检测人脸,并表现出更强大的性能,同时运行速度更快。 通过比较连续帧之间的颜色直方图来确定镜头边界[31]。 在每次拍摄中,面部跟踪都是根据面部检测的位置从面部检测生成的,因为当视点发生极端变化时,基于特征的跟踪器(例如KLT [34])通常会失败。 音频和文本准备 电视中的字幕不会与音频同步广播。 Penn Phonetics Lab强制对齐器[53]用于将字幕与音频信号强制对齐。对齐方式中存在错误,因为笔录不是逐字记录的——因此,通过对照工业中IBM Watson语音转文本服务进行检查,可以过滤对齐的标签。 AV同步和扬声器检测 在广播视频中,音频和视频流最多可能不同步一秒钟左右,这在提取与句子对应的面部表情时可能会引起问题。 [14]中描述的两流网络(two-stream network)的多视图适配(multi-view adaptation)[15]用于同步两个流。同样的网络还可以用来确定哪些脸部的嘴唇运动与音频相匹配,如果没有匹配,则该剪辑将被视为画外音。 句子提取 使用转录产物(transcript)中的标点将视频分为单个句子/短语。 句子之间用句号、逗号和问号分隔; 由于GPU内存的限制而被裁剪为100个字符或10秒。 对于词汇量,我们没有任何限制。 根据广播日期(broadcast date),LRS2-BBC数据集分为开发(训练/验证)和测试集。 数据集还具有一个“预训练”集,其中包含一些句子摘录,这些摘录可能比开发集中包含的完整句子短或长,并有每个单词的对齐边界的注释。 这些集合的统计信息在表1中给出。该表还将“唇读句”(LRS)系列数据集与最大的现有公共数据集进行了比较。 除了LRS2-BBC,我们还使用MV-LRS和LRS3-TED进行训练和评估。 用于训练外部语言模型的数据集 为了在每个视听数据集上训练用于评估的语言模型,我们使用了一个文本语料库,其中包含视频的完整字幕,并由此生成了数据集的训练集。 纯文本语料库包含2600万个单词。 5 训练策略在本节中,我们将描述有效地训练模型的策略,并充分利用有限的可用数据量。训练分为四个阶段:i)对视觉前端模块进行了训练; ii)使用视觉模块为所有训练数据生成视觉特征; iii)对序列处理模块进行冷冻视觉特征(frozen visual features)的训练; iv)整个网络是端到端的训练。 5.1 预训练视觉特征我们使用MVLRS [15]数据集的词摘录对视觉前端进行预训练,使用2层时间卷积后端对每个片段进行分类,类似于[45]。 我们以水平翻转,移除随机帧[4、45]以及在空间维度上最多±5个像素和在时间维度上最多±2帧的随机移位的形式执行数据增强。 5.2 课程式学习(Curriculum learning)据报道,当时间步长很大时,序列到序列学习收敛非常慢,因为解码器最初很难从所有输入步骤中提取相关信息[7]。 即使我们的模型不包含任何递归模块,我们发现遵循课程设置而不是立即对完整句子进行训练也很有帮助。 我们引入了一种新的策略,在该策略中,我们仅在单个单词示例上开始训练,然后让序列长度随着网络训练而增长。 这些短序列是数据集中较长句子的一部分。 我们观察到训练集上的收敛速度快了好几倍,而课程(curriculum)也显着减少了过拟合,这大概是因为它是扩充数据的自然方式。 首先根据MV-LRS,LRS2-BBC和LRS3-TED的预训练集的冻结特征对网络进行训练。 我们通过将序列零填充到最大长度来处理发声长度的差异,然后逐渐增加最大长度。 然后,我们根据要评估的集合,分别对LRS2BBC或LRS3-TED的训练评估(train-val)集进行端到端微调。 最初,纯音频模型使用纯净的输入音频进行训练。 具有多模式输入的网络通常可以由以下模式之一控制[19]。在我们的案例中,我们观察到对于视听模型来说,音频信号占主导地位,因为语音识别比唇读要容易得多。 为了防止这种情况的发生,我们在训练期间以 网络的输出大小为40,占字母表中的26个字符,10个数字以及[space]和[pad]的标记。 对于TM-seq2seq,我们使用额外的[sos]令牌,对于TM-CTC,我们使用[blank]令牌。 我们不对标点符号建模,因为数据集的转录不包含任何标点符号。 TM-seq2seq用教师强制(teacher forcing )训练——我们将上一个解码步骤的基本事实作为解码器的输入,而在推理过程中,我们会反馈解码器预测。 在本节中,我们评估和比较提出的体系结构和训练策略。 我们还将我们的方法与现有技术进行了比较。
我们按照第5.2节所述进行训练,并在各个数据集的独立测试集上评估LRS2-BBC和LRS3-TED的微调模型。推理和评估程序如下所述。
测试时间增加 在推论过程中,我们对每个视频样本执行9个随机变换(视频帧的水平翻转和最大±5像素的空间移位),并将扰动后的序列通过网络。 对于TM-seq2seq,我们平均了对数结果,而对于TM-CTC,我们平均视觉特征。
光束搜索 对于TM-Seq2seq,使用宽度为35的波束搜索来进行解码;对于TM-CTC,使用宽度为100的波束搜索来执行解码(这些值是根据LRS2-BBC的train-val分离的保留验证集确定的)。
评估协议 对于所有实验,我们报告的单词错误率(WER)定义为 结果 效果最佳的网络是TM-seq2seq,使用语言模型进行解码时,LRS2-BBC的WER达到48.3%,与之前最新的70.4%相比,改善了22%以上[12]。 该模型还将LRS3-TED的基准设置为58.9%。 在图5中,我们显示了WER如何随测试句子中单词数量的变化而变化。图6显示了该模型在30个最常用词上的性能。图7显示了在LRS2-BBC上进行评估时,仅视频TM-seq2seq模型增加波束宽度的效果。值得注意的是,在使用外部语言模型(+ extLM)进行解码时,增加波束宽度会更加有益。 解码示例 该模型将学习从各种内容中正确预测复杂的看不见的句子——表3中显示了示例。 视觉信息可用于改善ASR的性能,特别是在具有背景噪音的环境中[36、38、40]。 在这里,我们分析了第3节中描述的视听模型的性能。 结果 表2中的结果表明,当音频信号有噪声时,嘴唇的运动为语音识别提供了重要的提示。 并且即使在音频信号纯净的情况下也可以提高性能——例如,使用视听TM-CTC模型时,单词错误率从仅音频的10.1%降低到8.2%。与仅音频模型相比,使用视听TM-seq2seq时获得的收益相似。 在这里,我们评估视听模型在音频和视频输入未在时间上对齐时的性能。 由于音频和视频已在我们的数据集中同步,因此我们对视频帧进行综合移位以实现不同步的效果。 我们评估了LRS2-BBC数据集的非同步样本的性能。 我们考虑TM-CTC和TMseq2seq体系结构,对随机移位的样本进行或不进行微调。 结果如图8所示。很明显,TM-seq2seq体系结构更能抵抗这些变化。 我们只需将模型校准一个时期,以使不同步效果几乎消失。 这展示了针对两种模式采用独立的编码器-解码器注意机制的优势。 相反,即使在经过数次微调之后,连接两种编码的TM-CTC仍难以应对这种变化。 如果不提供音频,则TM-seq2seq模型在WER方面的唇读效果要好得多。 对于仅音频或视听任务,这两种方法的执行方式相似。但是,CTC模型似乎可以更好地处理背景噪声。 在很大的babble噪音的情况下,纯音频和视听TM-seq2seq模型的性能都明显差于它们的TM-CTC模型。 训练时间 TM-seq2seq模型的架构更复杂,更难训练,完整的视听模型大约需要8天才能在具有12GB内存的单个GeForce Titan X GPU上完成两个数据集的全部课程(curriculum)。 相反,视听TM-CTC模型在相同的硬件上训练速度更快,即大约需要5天。 但是,应注意的是,由于两种体系结构均不包含递归模块且不进行批量归一化,因此它们的实现可以高度并行化为多个GPU。 在本文中,我们介绍了一个大规模的不受限制的视听数据集LRS2-BBC,它是通过收集和预处理来自英国电视台的数千个视频而形成的。 我们考虑了两个可以将语音的音频和视频序列转换为字符的模型,并表明当仅存在一种模式时,也可以使用相同的体系结构。 我们的最佳纯视觉模型在很大程度上超越了LRS2-BBC唇读数据集上现有技术的性能,并为最近发布的LRS3-TED奠定了坚实的基础。我们最终证明,即使有干净的音频信号,视觉信息也有助于提高语音识别性能。尤其是在音频中存在噪声的情况下,将两种模态结合起来可带来重大改进。 [1] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems. arXiv preprint arXiv:1603.04467, 2016. [2] T. Afouras, J. S. Chung, and A. Zisserman. Deep lip reading: A comparison of models and an online application. In INTERSPEECH, 2018. [3] T. Afouras, J. S. Chung, and A. Zisserman. LRS3-TED: a large-scale dataset for visual speech recognition. arXiv preprint arXiv:1809.00496, 2018. [4] Y. M. Assael, B. Shillingford, S. Whiteson, and N. de Freitas. Lipnet: Sentence-level lipreading. arXiv:1611.01599, 2016. [5] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. Proceedings of the International Conference on Learning Representations, 2015. [6] S. Bai, J. Z. Kolter, and V. Koltun. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling. arXiv preprint arXiv:1803.01271, 2018. [7] W. Chan, N. Jaitly, Q. V. Le, and O. Vinyals. Listen, attend and spell. arXiv preprint arXiv:1508.01211, 2015. [8] C. Chiu, T. N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R. J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski, and M. Bacchiani. State-ofthe-art speech recognition with sequence-to-sequence models. CoRR, abs/1712.01769, 2017. [9] K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. In EMNLP, 2014. [10] J. Chorowski, D. Bahdanau, K. Cho, and Y. Bengio. Endto-end continuous speech recognition using attention-based recurrent NN: first results. In NIPS 2014 Workshop on Deep Learning, 2014. [11] J. K. Chorowski, D. Bahdanau, D. Serdyuk, K. Cho, and Y. Bengio. Attention-based models for speech recognition. In Advances in Neural Information Processing Systems, pages 577–585, 2015. [12] J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman. Lip reading sentences in the wild. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017. [13] J. S. Chung and A. Zisserman. Lip reading in the wild. In Proceedings of the Asian Conference on Computer Vision, 2016. [14] J. S. Chung and A. Zisserman. Out of time: automated lip sync in the wild. In Workshop on Multi-view Lip-reading, ACCV, 2016. [15] J. S. Chung and A. Zisserman. Lip reading in profile. In Proceedings of the British Machine Vision Conference, 2017. [16] R. Collobert, C. Puhrsch, and G. Synnaeve. Wav2letter: An end-to-end convnet-based speech recognition system. CoRR, abs/1609.03193, 2016. [17] M. Cooke, J. Barker, S. Cunningham, and X. Shao. An audio-visual corpus for speech perception and automatic speech recognition. The Journal of the Acoustical Society of America, 120(5):2421–2424, 2006. [18] A. Czyzewski, B. Kostek, P. Bratoszewski, J. Kotus, and M. Szykulski. An audio-visual corpus for multimodal automatic speech recognition. Journal of Intelligent Information Systems, pages 1–26, 2017. [19] C. Feichtenhofer, A. Pinz, and A. Zisserman. Convolutional two-stream network fusion for video action recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016. [20] G. Galatas, G. Potamianos, and F. Makedon. Audio-visual speech recognition incorporating facial depth information captured by the kinect. In Signal Processing Conference (EUSIPCO), 2012 Proceedings of the 20th European, pages 2714–2717. IEEE, 2012. [21] A. Graves. Sequence transduction with recurrent neural networks. arXiv preprint arXiv:1211.3711, 2012. [22] A. Graves, S. Fernandez, F. Gomez, and J. Schmidhuber. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the International Conference on Machine Learning, pages 369–376. ACM, 2006. [23] A. Graves and N. Jaitly. Towards end-to-end speech recognition with recurrent neural networks. In Proceedings of the International Conference on Machine Learning, pages 1764–1772, 2014. [24] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385, 2015. [25] G. Hinton, L. Deng, D. Yu, G. Dahl, A.-R. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, B. Kingsbury, and T. Sainath. Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29:82–97, November 2012. [26] A. Kannan, Y. Wu, P. Nguyen, T. N. Sainath, Z. Chen, and R. Prabhavalkar. An analysis of incorporating an external language model into a sequence-to-sequence model. arXiv preprint arXiv:1712.01996, 2017. [27] D. E. King. Dlib-ml: A machine learning toolkit. The Journal of Machine Learning Research, 10:1755–1758, 2009. [28] D. P. Kingma and J. Ba. ADAM: A method for stochastic optimization. In Proceedings of the International Conference on Learning Representations, 2015. [29] O. Koller, H. Ney, and R. Bowden. Deep learning of mouth shapes for sign language. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 85–91, 2015. [30] A. Krizhevsky, I. Sutskever, and G. E. Hinton. ImageNet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems, pages 1106–1114, 2012. [31] R. Lienhart. Reliable transition detection in videos: A survey and practitioner’s guide. International Journal of Image and Graphics, August 2001. [32] V. Liptchinsky, G. Synnaeve, and R. Collobert. Letterbased speech recognition with gated convnets. CoRR, abs/1712.09444, 2017. [33] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg. SSD: Single shot multibox detector. In Proceedings of the European Conference on Computer Vision, pages 21–37. Springer, 2016. [34] B. D. Lucas and T. Kanade. An iterative image registration technique with an application to stereo vision. In Proc. of the 7th International Joint Conference on Artificial Intelligence, pages 674–679, 1981. [35] A. L. Maas, Z. Xie, D. Jurafsky, and A. Y. Ng. Lexicon-free conversational speech recognition with neural networks. In Proceedings the North American Chapter of the Association for Computational Linguistics (NAACL), 2015. [36] Y. Mroueh, E. Marcheret, and V. Goel. Deep multimodal learning for audio-visual speech recognition. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 2130–2134. IEEE, 2015. [37] K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata. Lipreading using convolutional neural network. In INTERSPEECH, pages 1149–1153, 2014. [38] K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata. Audio-visual speech recognition using deep learning. Applied Intelligence, 42(4):722–737, 2015. [39] S. Petridis and M. Pantic. Deep complementary bottleneck features for visual speech recognition. ICASSP, pages 2304–2308, 2016. [40] S. Petridis, T. Stafylakis, P. Ma, F. Cai, G. Tzimiropoulos, and M. Pantic. End-to-end audiovisual speech recognition. CoRR, abs/1802.06424, 2018. [41] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, S. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. Berg, and F. Li. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 2015. [42] H. Sak, A. W. Senior, K. Rao, and F. Beaufays. Fast and accurate recurrent neural network acoustic models for speech recognition. In INTERSPEECH, 2015. [43] B. Shillingford, Y. Assael, M. W. Hoffman, T. Paine, C. Hughes, U. Prabhu, H. Liao, H. Sak, K. Rao, L. Bennett, M. Mulville, B. Coppin, B. Laurie, A. Senior, and N. de Freitas. Large-Scale Visual Speech Recognition. arXiv preprint arXiv:1807.05162, 2018. [44] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In International Conference on Learning Representations, 2015. [45] T. Stafylakis and G. Tzimiropoulos. Combining residual networks with LSTMs for lipreading. In Interspeech, 2017. [46] I. Sutskever, O. Vinyals, and Q. Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pages 3104–3112, 2014. [47] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015. [48] S. Tamura, H. Ninomiya, N. Kitaoka, S. Osuga, Y. Iribe, K. Takeda, and S. Hayamizu. Audio-visual speech recognition using deep bottleneck features and high-performance lipreading. In 2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA), pages 575–582. IEEE, 2015. [49] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin. Attention Is All You Need. In Advances in Neural Information Processing Systems, 2017. [50] M. Wand, J. Koutn, and J. Schmidhuber. Lipreading with long short-term memory. In 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 6115–6119. IEEE, 2016. [51] Y. Wang, X. Deng, S. Pu, and Z. Huang. Residual Convolutional CTC Networks for Automatic Speech Recognition. arXiv preprint arXiv:1702.07793, 2017. [52] Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, J. Klingner, A. Shah, M. Johnson, X. Liu, L. Kaiser, S. Gouws, Y. Kato, T. Kudo, H. Kazawa, K. Stevens, G. Kurian, N. Patil, W. Wang, C. Young, J. Smith, J. Riesa, A. Rudnick, O. Vinyals, G. Corrado, M. Hughes, and J. Dean. Google’s neural machine translation system: Bridging the gap between human and machine translation. CoRR, abs/1609.08144, 2016. [53] J. Yuan and M. Liberman. Speaker identification on the scotus corpus. Journal of the Acoustical Society of America, 123(5):3878, 2008. [54] N. Zeghidour, N. Usunier, I. Kokkinos, T. Schatz, G. Synnaeve, and E. Dupoux. Learning filterbanks from raw speech for phone recognition. CoRR, abs/1711.01161, 2017. [55] Y. Zhang, M. Pezeshki, P. Brakel, S. Zhang, C. Laurent, Y. Bengio, and A. C. Courville. Towards end-to-end speech recognition with deep convolutional neural networks. CoRR, abs/1701.02720, 2017. [56] Z. Zhou, G. Zhao, X. Hong, and M. Pietikainen. A review of recent advances in visual speech decoding. Image and vision computing, 32(9):590–605, 2014. |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |