張秀玲,周凱旋,魏其珺,董逍鵬
1(燕山大學 河北省工業計算機控制工程重點實驗室,河北 秦皇島 066004) 2(燕山大學 國家冷軋板帶裝備及工藝工程技術研究中心,河北 秦皇島 066004)E-mail:zxlysu@ysu.edu.cn.
手寫漢字識別(Handwritten Chinese character recognition,HCCR)是模式識別及機器學習領域極具挑戰性的問題之一.光學字符識別(Optical Character Recognition,OCR)技術涉及數字信號處理、模式識別、自然語言處理等多門學科知識,在計算機等相關領域有著廣泛的應用[1].根據手寫漢字數據的采集方式可以劃分為脫機手寫漢字識別和聯機手寫漢字識別.其中脫機手寫漢字圖片是用攝像頭或掃描儀等儀器捕捉采集得到的;聯機手寫漢字識別通過各種硬件設備實時采集書寫者的手寫漢字,此過程中不僅采集漢字的特征,還收集漢字的筆畫軌跡信息[2].脫機手寫漢字在采集圖片過程中不可避免的加入了噪聲干擾,所以一般來說,脫機手寫漢字識別相比于聯機手寫漢字識別更加困難.傳統的脫機手寫漢字識別主要包括數據預處理、特征提取和識別分類三個步驟.其中數據處理主要是對原始圖像的平滑去噪、白化、整形變換、去噪[3]等操作;對于特征提取主要有統計特征及結構特征兩種,其中統計特征相對于結構特征效果較好,其主要包括Gabor特征[4]、Gradient特征[5]等;對于識別分別問題主要采用支持向量機分類器、線性判別分類器等.
近年來,傳統的“預處理+特征提取+分類器”的手寫漢字識別似乎并沒有特別大的研究進展,幾乎看不到獲得突破性進展的研究報道.但是,深度學習的興起,對手寫漢字識別難題帶來了新的活力和極其有效的解決方法,特別是卷積神經網絡(Convolutional Neural Network,CNN)的引入,使得在圖像識別領域取得了突破性進展.牛津大學計算機視覺組及Goole DeepMind團隊在2014年研究出來的深度卷積神經網絡模型VGGNet[6],以及后面改進的Inception[7]和Resnet模型及其改進的模型都在ImageNet數據集上取得優異的成績,這些先進的技術為脫機手寫漢字識別提供了基礎和借鑒.
傳統神經網絡的卷積層或全連接層在信息傳遞時,會出現信息丟失以和損耗等問題,Resnet在一定程度上解決了這一問題,通過直接將信息繞道傳遞到輸出,從而保護了信息的完整性,但是深度殘差網絡過于追求網絡深度,而忽略了模塊本身學習的能力的問題,使得梯度反向傳播過程中,并不能保證可以流經所有的殘差學習單元,導致只有較少的學習單元可以學到有用的漢字特征.因此,本文提出一種多通道交叉融合的Inception殘差單元設計方法,使得更多殘差單元起到較大的作用以增強模型學習能力,提高模型識別精度.為進一步增強網絡信息傳遞的多樣性,本文在原有inception_resnet網絡結構基礎之上構造了三種多通道交叉融合的Inception殘差網絡模塊.其原模型及改進后模型結構圖如圖1所示,其中圖1(a)為原模型,圖1(b)、圖1(c)、圖1(d)為改進后的模型結構.

圖1 流程圖及殘差網絡學習單元Fig.1 Flow chart and resnet module
以圖1(b)為例,其中有4個分支:由于1×1卷積可以跨通道組織信息,提高網絡的表達能力,同時還可以起到對輸出通道升維和降維的作用,因此每一個分支首先分別對輸入進行1×1卷積操作;然后,針對每一個輸出通道只能對應一個濾波器,同一個濾波器參數共享,只能提取一類特征的問題,分別對其中右側三個分支進行卷積、池化或僅卷積操作得到6組不同特征,再將這6組特征進行兩兩交叉融合,從而實現了特征的多通道交叉融合,豐富了特征語義.在卷積或池化過程中加入了批標準化(Batch Normalization,BN)算法,進一步使得網絡訓練速度加快,同時收斂后的分類準確度有一定程度的提高,并加入Relu激活函數以增加神經網絡各層之間的非線性關系;最后,將融合后的特征分別經過1×1、3×3、5×5卷積后與左側第以一個分支在輸出通道維度上通過一個聚合操作,再將聚合后的卷積層與輸出相加得到模塊的輸出.具體網絡細節如表1所示.

(1)

表1 改進后網絡配置細節Table 1 Improved network configuration details
其中θ=(θ1,θ2,…,θC)為模型參數.
通過交叉熵建立優化目標函數,如式(2)并化簡為如式(3).
(2)
(3)
其中δ為狄利克雷函數,N為小批次數,R(θ)為正則化約束項.在訓練過程中利用梯度下降法求解參θ,得到函數的全局最優解,獲得正確分類結果.
普通卷積神經網絡都是以Softmax loss 損失函數作為模型訓練的監督信號,其雖然具有較好的分類效果,但是判別能力差.由于漢字字體較多,存在類內聚較大,類間距不明顯的情況,因此在漢字識別任務中不僅需要損失函數具有較好的可分性,還需要具有較強的判別能力.為了使得類內聚減小,類間距增大,文獻[7]首次提出中心損失函數,中心損失函數定義如式(4)所示.
(4)
式(4)中,N為最小批次,xi是第張i照片的特征值,cyi為第i張照片所屬類別的中心,Lc相對于xi的梯度和cyi的更新梯度及更新方式分別如式(5)、式(6)、式(7).

(5)
(6)
(7)
其中α為中心學習率.
由于訓練批次較小,在訓練過程中中心損失函數容易發生震蕩,收斂緩慢,因此在其權值更新過程中加入了動量項,它能夠有效減小訓練過程中的震蕩趨勢,改善收斂效果.改進更新公式如式(8).
(8)
其中β∈[0,1]為動量因子,當β=0時,權值修正只與當前梯度有關,當β=1時,權值修正就只與上一次的梯度有關,當β∈(0,1)時,與當前梯度和上一次的梯度有關.
通過將Softmax損失函數和中心損失函數聯合作為監督信號可以有效的提取到漢字深度特征并使得訓練集能夠更好的類內聚合,類間分散.其聯合監督函數及連接方式如式(9).
(9)
其中λ用來平衡兩個中心損失函數的比重.
本實驗采用公開數據集CASIA-HWDB(V1.1),由于此數據集為原始未處理過的樣本,在其內部存在錯誤之處,為了能夠很好的驗證本文設計的模型及算法,所以對此樣本做如下篩選:
其中,圖2(a)中所表示的在訓練集中書寫錯誤的,對訓練分類造成較大影響,因此將此類圖片文字直接刪除.圖2(b)中代表的是在主體漢字旁邊有額外的筆劃,將此類照片做裁剪,裁剪掉額外筆畫.圖2(c)中代表的是錯誤標記的漢字樣本,將其放入正確分類項即可.由于在測試集中同樣存在和訓練集相似的錯誤,因此也對測試集做同樣預處理,以保證得到模型真正識別效果.

圖2 預處理數據集樣例Fig.2 Sample preprocessed data set
同時為了降低模型過擬合的風險,本文還采用了數據增強.首先將圖片調整72×72大小;然后,對訓練集圖片的左上、右上、左下、右下、中間做5次裁剪,之后對結果求平均;最后,對RGB空間做PCA,然后對主成分做一個(0,0.1)的高斯擾動.經過上述的數據增強方法后,使得最后訓練樣本為原來的2-4倍,并增加了訓練信息的多樣性,有效降低過擬合的風險.
在采用聯合監督損失函數訓練上述神經網絡模型時需要設置學習率控制參數更新的幅度,如果幅度過大,則會導致參數在極優值的兩側來回移動,參數過小時,雖然能保證收斂性,但是會大大減低優化速率,為了解決設定學習率的問題,本文使用了一種更加靈活的學習率:首先設定學習率為0.1,這樣能保證前期的收斂速度;然后,當迭代次數到達10k時學習率為0.01,使得在中期能夠很好的優化網絡;最后,當訓練到40k時,此時設定學習率為0.001,進行最后的優調.
按上述訓練方法訓練結束后生成各類損失示意圖及精度示意圖.由圖3(a)圖3(c)可知當訓練次數達到80k時,其訓練損失及測試損失趨于穩定并分別收斂到0.32和0.21,達到了很好的訓練效果.同時,由圖3(b)和圖3(d)可以看出其訓練精度及測試精度分別達到0.9938和0.9639.實驗結果如圖3所示.其中曲線數據每迭代100次保存一次數據.

圖3 模型訓練及測試示意圖Fig.3 Model training and test schematic diagr
為了說明本文所設計的多通道交叉融合殘差模型及加入動量項中心算法的有效性,做了一下對比試驗.其中,Model為本文的多通道交叉融合的殘差神經網絡模型,LC1為原有中心損失函數,LC2為加入動量項的中心損失函數.LS為傳統softmax損失函數.結果如表2所示,可以看出:
1)本文設計的多通道交叉融合模型網絡模型比原有Inception-Resnet模型識別率提高了0.62%,如表2中⑤、⑥所示.
2)相比于現有的部分模型在測試數據集的識別精度也有較大的提升,如表2中①、②、③、④、⑥所示.
3)當本文設計的多通道交叉融合模型網絡模型加入原有中心損失函數及本文設計的新的中心損失函數識別率相對于原有Inception-Resnet模型分別提高了0.68%和0.73%,如表2中⑤、⑦、⑧所示.
最后做了top-5拓展實驗,取得了高達99.39%的識別率.由此驗證了本模型及算法的有效性.

表2 不同模型的分類精度Table 2 Different classification accuracy of the model
本文通過結合Resnet的殘差網絡模型,提出了一種多通道交叉融合的殘差學習模塊,有效的提取了手寫漢字的深度特征.并通過加入中心損失函數來增大數據集之間的類間距和減小類內聚,進一步提高了網絡的特征提取、分類能力.實驗結果表明該模型具有較好的分類性能.在其他分類識別任務上具有一定應用潛力.
最后,本文所采用的中心損失函數本質上是歐氏距離,其只考慮向量之間的距離,而忽略了向量之間的相似度,即余弦距離.因此,下一步工作研究是否能將余弦距離作為中心損失函數,與Softmax損失函數及現有中心損失函數共同作為訓練監督信號.并進一步研究圖片連續文字的識別問題以及多目標檢測問題.