手写汉字识别的发展综述

2024-07-14 00:36| 来源: 网络整理| 查看: 265

一、手写汉字识别的研究背景与现状

在上个世纪60年代，美国IBM公司开始进行了对印刷体汉字的模式识别研究工作，1996年Casey和Nag用模板匹配法成功的识别出了1000个印刷体汉字，在全球范围内，汉字识别开始展开了。而就在这个时候，研究界对手写汉字识别也掀起了高潮。因为汉字在日语中占有一定的地位，手写体汉字识别（HCCR）在一开始是由日本率先尝试研究的，在80年代，国内开始了对手写汉字的研究，因为汉语作为我们的母语，汉字主要在我国广泛使用，对汉字的种类、内涵、造字原理国内的掌握情况较透彻，所以关于手写汉字识别的深入研究主要集中在国内。手写体汉字识别由于数据采集方式不同可以划分为脱机手写体汉字识别和联机手写体汉字识别两大类。联机手写汉字识别所处理的手写文字是书写者通过物理设备(如数字笔、数字手写板或者触摸屏) 在线书写获取的文字信号，书写的轨迹通过定时采样即时输入到计算机中。而脱机手写文字识别所处理的手写文字是通过扫描仪或摄像头等图像捕捉设备采集到的手写文字二维图片。由于识别的对象不同，使得这两类手写识别技术所采用的方法和策略也不尽相同。前者的识别对象是一系列的按时间先后排列的采样点信息，而后者则是丢失了书写笔顺信息的二维像素信息，由于没有笔顺信息，加之由于拍照扫描设备在不同光照、分辨率、书写纸张等条件下，数字化会带来一定的噪声干扰，一般来说，脱机手写文字识别比联机手写文字识别更加困难。手写汉字识别是一个极具挑战性的模式识别及机器学习问题，主要表现在: 1)书写方式随意，不规正，无法达到印刷体要求； 2)汉字字符级别比较繁杂，极具变化特点； 3)诸多汉字在外形上相似，容易混淆； 4)要求具备庞大的训练数据，但采集困难，特别是随意性、无约束性手写，对应数据库的构建显得力不从心。可见，手写汉字识别进步空间较大，需要综合各项技术，增加训练样本数据，提升识别率。一般而言，传统的手写中文单字识别系统主要包括数据预处理、特征提取和分类识别三部分。然而，近些年来，传统的手写汉字识别框架进展并不明显，原地踏步，急需寻找其它的解决方案。而深度学习正满足了手写汉字识别革新需求。实践证明，在深度学习技术协助下，联机HCCR、脱机HCCR的识别率都大为提升，同原有的识别技术相比进步非常明显。

二、深度学习模型

典型的深度学习结构包括： 1.深度置信网络(DBN)[1]，2006年，Hinton等人在长期研究后，推出了DBN。DBN极具创造性，囊括了无监督逐层训练理念，对神经网络隐藏层进行了丰富，壮大了训练方法。在DBN结构下，模型参数的初始解更加合理。利用无监督逐层训练，还能够进行层次性学习。 2.CNN的最早雏形理念是由Fukushima 在1980年首次提出，LeCun 等将反向传播算法(Back-propagation，BP) 用于卷积结构，提出了层与层之间局部连接且具有多层结构的卷积神经网络模型[2]。作为前馈神经网络，CNN非常适用于处理大型图像。在CNN架构中，设计有特征提取层、映射层。LeCun在卷积结构中应用反向传播算法，使卷积神经网络模型结构层次不断增加。在新结构层中，可看到交替的卷积聚合层。2012年，Krizhevsky加深了CNN，在Dropout、ReLU技术下，取得了ImageNet比赛的胜利[3]。 3.2007 年，Ranzato对深度学习结构进行了创新，得到层叠自动编码机架构。这样，原来的RBM由AE(自动编码机)取代，神经网络结构共2层，具有无监督特点。 4.同SAE、CNN、DBN不同的是，RNN中的输出结果受到不同时期输入影响，此类神经网络具有存储记忆功能。也就是说，当前、过去输入，以及未来可能存在的输入都会对输出进行重建。在训练时，RNN也会生成反向传播算法，即BPTT。但是，在记忆时间上是短暂的，无法长期保存。近年来还涌现出不少别的深度学习模型，其中一类值得关注的模型是深度强化学习(DRN)[4]，例如Google Deep Mind团队2015年提出的深度Q网络(DQN)，其在模拟人的智能及在线强化学习方面表现出优异的性能。

三、基于深度学习的手写汉字识别

1.基于CNN的端到端的识别方法

2012年，多列CNN模型(MCDNN)由IDSIA实验室推出，同样具有“端-端”特点。MCDNN中，需要对CNN网络进行GPU训练，并平均集成CNN输出；以图像的形式转换联机、脱机手写样本，并通过CNN训练。在训练时，拒绝特征选择、提取，识别结果便是CNN输出结果。MCDNN在脱机及联机中文识别均取得了当时最先进水平的识别结果。

2.结合领域知识的CNN识别方法

虽然以MCDNN为代表的端到端的CNN模型设计简单，也取得了优异的识别性能，但端到端的方法一个不足之处在于其没有很好地利用要手写文字的一些先验领域知识，例如联机时序信息、领域相关的数据生成技术、方向变换特征等，而这些领域信息是无法通过CNN网络自动学习而获取的。下面将介绍近年来传统领域知识和CNN相结合的手写汉字识别方法。

数据生成技术：为了避免在训练过程中出现过拟合以及提升CNN模型的识别性能，除了采用Dropout等一些经典的方法之外，获取充足的训练样本是保障CNN等模型获得高性能的前提。但很多时候我们获得的训练样本是十分有限的，因此，数据增加技术是一种非常重要的提升CNN系统鲁棒性及推广能力的技术。 2)方向变换特征：Graham等人不仅对稀疏CNN模型进行了研究，也对CNN输入层开展了全新的知识路径积分特征分析[5]。经实践，新技术能够提取联机时序信息特征，准确度比较高。在知识路径中，还加入了特征图。为此，同MCDNN 法相比，识别CASIA-OLHWDB数据集的操作显得更为方便，速度更快，准确性更高。

3.其他改进的CNN识别方法

在手写汉字识别领域，为了进一步提升深度学习模型的性能，研究人员除了加大模型深度和宽度及将传统领域知识与深度模型相结合之外，还对深度学习的网络结构和训练方法进行了各种改进。例如，CNN中常见最大值聚合操作的大小和步长一般都是整数，Graham[6] 对此提出了更一般化的分数最大值聚合方法。除此之外，研究者对深度模型的样本训练方式也做出了改进。Yang等[7]从心理学对人的记忆遗忘规律的研究中受到启发，提出DropSample样本训练技术。另外，文献[8]提出了两种改进的CNN模型用于脱机手写汉字识别: Relaxation CNN(R-CNN)及Alternately training CNN(ART-CNN)。

4.基于其他深度模型的识别方法

拥有多个隐层的全连接神经网络一般可以统称为DNN，例如含有多个隐藏层的多层感知器神经网络，传统的多层神经网络的训练容易过拟合、容易陷入局部最优，而且随着层数加深会出现梯度弥散等问题。2014年，Du等[9]将传统方法和DBN方法结合，使用了三种分类器: 原型距离、DNN和Bottleneck特征分类器。原型分类器由聚类算法构建，使用基于最大样本分离边界的最小分类误差准则进一步改进，是一个小型且高效的分类器。两个主流的深度神经网络CNN和DBN相比较而言，CNN不需要预训练，则相比于DBN的逐层预训练要省时，同时CNN因为加入卷积操作，能够更好处理图像信息，DBN 则主要处理一维的数据，因此在手写体汉字识别中，CNN比DBN略胜一筹。此外，SAE 等其他深度模型在大类别手写中文文字识别中的成功应用报道尚不多见。

5.基于RNN/LSTM的文本行识别方法

如前文所述，采用深度学习等技术之后，目前手写单字符识别问题已经在某种程度上获得了较好的解决，但相对单字符识别而言，含序列信息的手写文本行识别仍然是此领域还未解决的难点问题之一。针对此问题，一个有极大潜力的解决办法是应用深度学习方法中回归神经网络(RNN)模型，特别是LSTM和BLSTM等模型，由于对序列数据有很好的建模能力，因此它们更适合于解决诸如包含时序先后顺序信息的文字行识别问题。

四、总结、讨论与展望

本文简要回顾了手写体汉字识别的研究背景，介绍了传统手写汉字识别系统中各个主要步骤所涉及到主要技术，指出当前研究的主要困难及所面临的挑战。然后介绍了CNN、RNN、LSTM、SAE、DBN等几种主要的深度学习模型。在此基础上，详细综述及分析了近年来采用基于深度学习的方法在联机及脱机手写体汉字识别的最新进展，总结了各种深度学习模型在手写体汉字识别的研究现状。手写体汉字识别经历了四十多年的长足发展,在单字和文本行识别性能上有了很大的提高，特别是以CNN为代表的一系列深度学习模型的出现，手写单字符中文识别问题已经基本上得到了很好解决,无论是联机还是脱机手写中文字符识别，目前基于CNN及其改进模型的方法均取得了接近甚至是超过人眼识别性能的高识别率。然而，在手写汉字识别领域，仍然很多值得研究的问题有待解决，例如: 1)手写文本行识别问题: 目前基于深度学习模型的联机及脱机手写文本行识别的成功报道很少。对于联机中文手写文本行识别，目前最好的识别率指标均才达到95%左右，而脱机手写文本行识别最好的指标仅为90%左右[10],特别是以整行为单位来评价识别率，行级别的识别率将会很低，仍然有很大的提升空间。可以说联机及脱机手写文本行识别仍然是未解决的难题。 2)无约束的手写文字识别问题: 其中一个值得关注的研究问题是旋转无关的手写识别问题，根据2010年发布的国家标准GB/T18790-2010“联机手写汉字识别系统技术要求与测试规程”，手写输入软件及设备必须要能识别±45度的手写样本，然而目前市场上的绝大部分主流输入法产品均无法满足此要求。尽管一些研究人员注意到此问题，并开展了不少前期探索工作，但总体而言，此问题仍然远未得到有效解决。相信深度学习新技术的出现，将为解决此问题提供崭新的思路及技术手段。另外，目前的研究工作绝大部分局限于解决简单的问题，例如单字符识别或简单的文本行识别，对于联机手写重叠文本行识别、混合手写单字/文本行/重叠以及来自整屏任意无约束书写的手写汉字识别的研究工作仍然鲜有报道，这是一个值得研究的课题。 3)超大类别手写汉字识别问题: 目前手写汉字识别研究报道所能识别的文字类型基本上以国标一级字库3755类汉字为主，针对实际应用场景下要能识别10000个以上类别的实用化手写识别研究的报道还不多，且缺乏公开的超大类别(例如支持GB8010-2000标准的27533类)训练及测试数据集。在如此大类别的情况下，如何研究一个处理速度快、模型参数足够小的可实用化的基于深度学习的解决方案将变得极具挑战性。因此，超大规模数据集的构建、针对各种深度学习模型的快速算法、深度学习模型的参数压缩技术等问题仍然需要研究人员的继续探索及解决。此外，超大类别还有一个很大的应用是古籍文献及手稿的内容识别及检索，中国古籍的字符类别超过3万类，而且有更多的变体字和相似字，如何解决训练样本不足的问题以及如何设计超大类别分类器都是值得关注的问题。 4)新的深度学习模型在手写汉字识别中的应用研究: 目前在手写汉字识别领域能取得比传统方法明显好的深度学习模型主要是基于CNN及其各种改进方法，其他的深度学习模型如DBN、RNN、LSTM/BLSTM/MDLSTM以及深度强化学习(DRN)模型在大类别手写汉字识别中的研究工作开展得还不多，各种深度学习模型之间的相互联系及融合应用的研究并不深入，我们十分期待其他的深度学习模型以及未来能有更新更好的针对文字识别的深度模型能提出来，并在手写汉字识别领域能取得突破性进展，从而促进此领域的研究及发展。 5)自然场景中的文字检测与识别: 近年来，随着大量的互联网图片爆炸式增长，自然场景中的文字检测及识别成为文字识别乃至计算机视觉领域一个极其重要和广受关注的热点研究课题，深度学习理论及技术的出现和发展为解决这一极具挑战的难题提供了很好的解决方案，近年来已经出现了大量研究成果[11]。但与传统的MSER框架的方法相比，深度学习的方法处理速度慢、模型参数存储量大等也亟待解决。此外，目前绝大多数研究工作是针对英文语言，针对中文的自然场景文字检测及识别的研究报道还不多见,而自然场景图像中的手写汉字检测及识别方面的研究工作开展的还很少，要解决这些问题任重而道远。总体而言，深度学习为解决手写汉字识别提供了新的理念及技术，近几年来也在此领域诸多方面取得了大量的研究成果，但仍然有不少研究问题值得进一步研究。

参考文献 [1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks. Science,2006,313(5786):504-507 [2]LeCun Y,Boser B,Denker J S,Henderson D,Howard R E,Hubbard W,Jackel L D.Backpr- opagation applied to hand-written zip code recognition.Neural Computation,1989,1(4): 541-551 [3]Russakovsky O,Deng J,Su H,Krause J,Satheesh S,Ma S A,Huang Z H,Karpathy A,Khosla A,Bernstein M,Berg A C,Li F F.ImageNet large scale visual recognition challenge.International Journal of Computer Vision,2015,115(3): 211-252 [4]Littman M L.Reinforcement learning improves behaviour from evaluative feedback.Nature,2015,521(7553):445-451 [5]Graham B.Spatially-sparse convolutional neural networks.arXiv: 1409.6070,2014. [6]Graham B.Fractional max-pooling.arXiv: 1412.6071,2014. [7]YangWX,Jin L W,Tao D C,Xie Z C,Feng Z Y.DropSample: a new training method to enhance deep convolutional neural networks for large-scale unconstrained handwrittenChinese character recognition.arXiv: 1505.05354,2015. [8]Wu C P,Fan W,He Y,Sun J,Naoi S.Handwritten character recognition by alternately trained relaxation convolutional neural network.In: Proceedings of the 14th International Conference on Frontiers in Handwriting Recognition.Crete,Greece: IEEE,2014.291-296 [9]Du J,Hu J S,Zhu B,Wei S,Dai L R.A study of designing compact classi¯ers using deep neural networks for online handwritten Chinese character recognition.In: Proceedings of the 22nd International Conference on Pattern Recognition.Stockholm,Sweden: IEEE,2014.2950-2955 [10]Messina R, Louradour J. Segmentation-free handwritten Chinese text recognition with LSTM-RNN. In: Proceedings of the 13th International Conference on Document Analysis and Recognition. Tunis: IEEE, 2015. 171-175 [11]Jaderberg M, Vedaldi A, Zisserman A. Deep features for text spotting. In: Proceedings of the 13th European Conference Computer Vision. Zurich, Switzerland: Springer, 2014.512-528

【本文地址】

手写汉字识别的发展综述

手写汉字识别的发展综述

今日新闻

推荐新闻