基于卷積神經網絡的電力操作票文字識別方法

2020-05-06 14:47:00

浙江電力 2020年4期

（國網浙江省電力有限公司舟山供電公司，浙江舟山 316021）

0 引言

隨著移動設備新技術的發展，文檔圖像獲取途徑突破了掃描儀的限制，手機拍攝越來越受到歡迎。在電力運維檢修現場，手機拍攝操作票更方便快捷。與掃描儀得到的干凈規整圖像不同，手機拍攝的文檔圖像存在光照變化強烈、清晰度低、筆跡潦草等特點。手寫字體與印刷字體差異性大，書寫習慣因人而異，缺乏規范性，橫豎不直、撇捺不斜、筆畫不清等加大了文字識別的難度[1]。OCR（傳統光學字符識別）技術能夠準確識別清晰成像的操作票印刷文字，但在其他場景，尤其是手寫字體的識別上存在較大困難，為實現操作票電子化管理帶來了挑戰。20 世紀90 年代，深度學習神經網絡模型受到了學術界的重視，逐漸發展成熟，在自然語言處理、模式識別、圖像識別等領域涌現了大量前沿方法。DBN（深度信念網絡）[2]、SAE（堆疊自動編碼器）[3]、CNN（卷積神經網絡）[4-5]、RNN（循環神經網絡）[6]等方法為文字識別難題提供了新的解決思路。近年來，研究者提出了很多基于深度學習的文字識別方法。針對卷積神經網絡，本文將文字識別方法歸納為以下3 類。

一是直接基于CNN 的文字識別方法：使用手寫漢字圖片樣本集，通過CNN 方法直接訓練得到文字分類模型，用于文字識別。

Ciresan 等人[7]第一次提出使用CNN 方法訓練文字分類模型，實現了其在大類別手寫漢字識別應用，準確度遠高于SVM，Boosting，MLP 等傳統機器學習方法。Ciresan 等人后續進一步改進文字識別方法[8]，訓練7 個CNN 模型構建的委員會方法，在MNIST 數據集上降低識別錯誤率到0.27%，取得了很好的結果。MCDNN 方法是一種多列CNN 模型[9]，其與多CNN 模型集成方法類似，但調整了CNN 網絡結構（每個CNN 網絡含4個卷積層、4 個池化層和1 個全連接層），僅訓練獲勝者神經元，多列CNN 模型以不同的方式預處理樣本輸入，以簡單平均法計算最終分類結果。

此類方法僅使用CNN 方法直接訓練文字分類模型，訓練高效、設計簡單。但是，CNN 方法在訓練的過程中僅能學習到圖像表面特征，無法學習筆跡方向變化、起筆落筆狀態等特征。此類方法的識別性能有待進一步提高。

二是結合領域知識的CNN 文字識別方法：從書寫的角度考慮手寫字體存在的筆跡變化等特征，解決CNN 方法無法學習獲得的問題。

文獻[10-13]為了克服訓練CNN 模型過擬合問題，提出了一系列文字變形方法，豐富訓練樣本，提升文字識別能力。LeCun 等人提出一種GTN（圖像變形網絡），處理平面圖像的平移、縮放、旋轉、拉伸等特征，能夠有效識別變形字體[10]。Simard 等人[11]提出仿射變形與彈性變形兩種文字變形方法，擴增訓練樣本，最終構建出一種簡單通用的CNN 文字分類模型。提出了分別沿X軸、Y 軸等角度文字變形方法，實驗證明了其對文字識別模型訓練的有效性[12]。Bastien 等人提出了一種強大的文字隨機變形與噪聲生成器方法，不僅包括仿射變換，還包括傾斜的局部彈性變形，厚度變化，灰度變化，對比度變化等各種噪音類型干擾[13]。與傳統機器學習方法相比，深度學習方法從圖形變換中增益較大。

文獻[14-16]從訓練樣本中學習手寫字體筆跡特征，包括方向變化等特征，此類筆跡特征作為CNN 方法的附加輸入參與訓練。Okamoto 等人引入假想筆畫特征，提取筆畫方向變化特征，以提升手寫字體的識別性能[14]。Graham 提出了一種通過數學微積分計算筆跡的梯度特征方法，有效獲取了手寫字體位移、曲率等信息[15]。Bai 和Huo擴展漢字橫、豎、撇、捺4 個方向到8 個方向，分別提取手寫字體方向特征[16]。上述3 種筆跡特征方法被廣泛應用于文字識別領域。

三是其他改進的CNN 文字識別方法：優化CNN 的網絡結構、訓練方法和參數設置，提升CNN 模型的識別準確度。

Graham 提出了一種FMP（分數池化方法）[17]。常規CNN 大多使用α×α（一般情況下，α=2）最大池化矩陣，而FMP 方法則可以使用取值為分數的α。FMP 的想法是將圖像的空間尺寸減小到1<α<2。與隨機池化類似，FMP 在池化過程中也引入了一定程度的隨機性。不同的是，FMP 的隨機性與池區域的選擇有關，而不是每個池化區域內執行池化。FMP 方法有效減少了CNN 在各種數據集上的過度擬合幾率。Yang 等人提出了一種新的深度學習模型訓練方法DropSample[18]。Drop-Sample 方法定義了一個配額函數，此函數根據CNN 的全連接層（softmax 輸出層）給出分類置信度。經過學習迭代后，低置信度樣本將大概率地被選擇為訓練數據，而高置信度樣本將較少地參與后續訓練。最后，隨著學習迭代進行，模型訓練將變得更加高效。Wu 等人提出了一種R-CNN（基于松弛卷積神經網絡）和ATR-CNN（交替訓練的松弛卷積神經網絡）的手寫字體識別方法[19]。與傳統方法的卷積層不同，R-CNN 中采用的松弛卷積層不需要特征圖中的神經元共享相同的卷積核，賦予了神經網絡更多的表達能力。由于松弛卷積大大增加了參數總數，作者使用ATR-CNN方法來規范化神經網絡。ATR-CNN 方法在MNIST數據集上取得了較低的錯誤率（0.25%）。

上述三類方法從CNN 的應用、筆跡特征提取、訓練方法等不同角度出發，提出了適用于手寫字體識別的有效方法。但是，這些方法均未考慮低質量樣本圖像、筆跡特征集成對文字識別帶來的影響。為解決操作票樣本圖像質量，融合多筆跡特征問題，本文提出了一種CBTR（基于卷積神經網絡的文字識別）方法。本文主要工作如下：

（1）提出了一種基于CNN 的圖像增強方法，其僅包含三層卷積層網絡，無池化層、全連接層，該模型的訓練目的是學習得到非線性映射函數，輸出PSNR（高峰值信噪比）圖像[20]。

（2）提出了一種基于筆跡特征的集成卷積網絡模型，該模型結構參考DeepCNet 網絡[22]，主要區別是本文模型精簡了網絡層次，以提升模型訓練效率；同時引入多種筆跡特征，代替原圖輸入，克服CNN 受限于原圖的空間特征學習，提升手寫字體識別的準確度。

（3）在實際運維檢修中操作票圖像樣本集上進行實驗，實驗結果證明了本文方法的有效性。

1 基于CNN 算法的電力操作票文字識別

本文提出的CBTR 是一種基于CNN 算法的電力操作票文字識別方法，其總體流程如圖1 所示，分為4 個步驟：

（1）樣本圖片作為訓練數據集，構建自定義三層卷積網絡模型，訓練輸出非線性映射函數。

（2）測試圖片作為非線性映射函數輸入，得到具有高PSNR 值的測試圖片。

（3）樣本圖片作為訓練數據集，構建基于假想筆畫、路徑簽名與8 方向特征的集成CNN 模型，訓練得到分類模型。

（4）測試圖片作為分類模型的輸入，使用簡單平均法計算分類結果。

圖1 CBTR 方法流程

1.1 基于CNN 的圖像增強

手機拍攝電力操作票時，光線、角度、像素均會影響圖像成像的清晰度。若圖像的清晰度較低，將嚴重影響文字識別的準確度。針對低清晰度圖像文字識別困難問題，構建特殊的CNN 模型，即基于CNN 的圖像增強方法，其僅包含三層卷積層網絡，無池化層、全連接層，并選擇激活函數ReLU[21]，步長設置為1，不對卷積運算填充0，網絡架構如表1 所示。

該模型的訓練目的是學習得到非線性映射函數Fλ（pi），若給定一張低清晰度圖像pi，使用Fλ（pi）得到高清晰度圖像Pi的PSNR 值，與真實圖像Ti的PSNR 值相比較，能夠獲得最小F 范數。因此，該模型的損失函數定義為：

表1 基于CNN 的圖像模型架構

式中：N 是訓練集圖片樣本總數，1≤i≤N。

本文選擇PSNR 指標評價圖像質量，即通過非線性映射函數Fλ（pi）可以得到擁有高PSNR 值的輸出圖像。若定義訓練數據集S={（pi，Ti）：1≤i≤N}，則該模型可表示為λ={Wj，bj}。其中Wj={：1≤k≤nj}，為卷積網絡第j 層的卷積矩陣，bj為偏差值，nj為卷積網絡第j 層的卷積核個數。表2 給出了本文圖像增強方法的偽代碼。給定一個低清晰度圖像pi，具體執行步驟如下：

（1）1-5 行：對于任意一個低清晰度圖像pi，通過卷積運算得到中間結果，再使用ReLU 函數計算得到高PSNR 值圖像Zj。

（2）6-7 行：結束三層卷積網絡運算，返回高PSNR 值圖像結果Fλ（pi）。

表2 基于CNN 的圖像增強的偽代碼

1.2 基于筆跡特征的集成卷積網絡模型

電力操作票存在較多手寫字體，包括發令人、受令人簽字，時間、操作項目等內容。手寫字體書寫風格因人而異，字體結構復雜、種類繁多，加大了電力操作票文字識別的難度。針對手寫字體特點，本文提出一種基于筆跡特征的集成卷積網絡模型，模型結構參考DeepCNet 網絡，主要區別是本文模型精簡了網絡層次，以提升模型訓練效率；同時引入多種筆跡特征，代替原圖輸入，克服CNN 受限于原圖的空間特征學習，提升手寫字體識別的準確度。

集成CNN 模型架構如表3 所示，表中N 的含義是筆跡特征的維度。該模型包含6 層卷積網絡，前5 層卷積網絡下一層均配置池化層，第6 層卷積網絡的下一層配置全連接層。第1 層卷積網絡的卷積核大小設置為3×3，卷積核個數為80，且依次遞增80；第2～6 層卷積網絡的卷積核大小設置為2×2；選擇補0 卷積運算，步長取1。池化層矩陣大小均為2×2。需要學習的參數約有400萬，小于DeepCNet 網絡的590 萬，提升了模型訓練效率。

表3 基于CNN 的圖像模型架構

筆跡特征矩陣是該模型第1 層卷積網絡的輸入，下文將詳細介紹假想筆畫、路徑簽名與8 方向特征3 種筆跡特征矩陣的計算方法。

1.2.1 假想筆畫

漢字在書寫過程中會涉及起筆、落筆、不同筆畫相連等特點。同一漢字的筆形運動軌跡相似，方向變化一致。假想筆畫[14]提取同一漢字不同筆畫起落筆之間的方向變化特征，達到識別手寫字體目的。該方法使用方向變化程度計算不同筆畫之間的相關度。若相連筆畫越短、方向變化越大，則為強特征。強特征能夠有效標識漢字的書寫特征。方向變化程度dcd 計算公式為：

式中：θ 為不同筆畫之間相連構成的夾角度數（180≤θ≤180），l 為筆畫長度，ml=64，w=1/8。比較不同像素點dcd 的值，計算得到假想筆畫矩陣，并作為集成卷積神經網絡模型的輸入。電力操作票中的“操”字，筆畫多且結構復雜，圖2 給出其筆畫變化特征示例，特征像素點由黑色小矩形框標出。

圖2 “操”字筆畫變化特征示例

1.2.2 路徑簽名

路徑簽名特征[15]從數學微積分的角度，計算手寫字體的連續曲率，以捕獲筆畫軌跡特征。文獻[16，24]等指出路徑簽名特征提取的筆跡方向信息及梯度變化信息更為豐富完整。因此，本文選擇路徑簽名特征作為集成卷積網絡模型的重要輸入，提升CBTR 方法的泛化能力。

假設給定一個手寫漢字，筆跡起止區間為[s，t]，其k 重積分特征定義為：

若k=0，則0 重積分特征計算結果為1，表示筆跡的二值圖像特征；若k=1，則1 重積分特征表示筆跡的位移特征；若k=2，則2 重積分特征表示筆跡的曲率特征。k 值可取任意值，正常情況下不宜取值太大，否則會導致計算復雜度指數級增加，卻不能獲取更多有效筆跡特征。路徑簽名特征還可拼接兩條有限長路徑，得到一條長路徑多重積分特征，計算示例如圖3 所示。

1.2.3 8 方向特征

圖3 “操”字路徑拼接計算示例

漢字主要由橫（—）、豎（|）、撇（/）、捺（）構成，與英文等字母類構成的文字不同，漢字有明顯的方向特征。8 方向特征[16]能夠出色地擬合漢字的橫、豎、撇、捺等筆畫。假設給定一個二維坐標，8 方向特征分別從0°，45°，90°，135°，180°，225°，270°，315°計算筆跡梯度大小。給定一段筆跡的起止坐標（x1，y1）與（x2，y2），梯度計算公式為：

圖4 “操”字8 方向特征計算示例

2 實驗驗證

2.1 數據集

本文使用的測試數據集來自國網浙江省電力有限公司某供電公司在運維檢修中采集到的電力操作票圖像。測試數據集共計10 萬張高清晰度圖像和經過壓縮后的10 萬張低清晰度圖像，高清晰度圖像與低清晰度圖像一一對應，高清晰度圖像的PSNR 值是本文圖像增強方法的學習標簽，低清晰度圖像作為本文圖像增強方法與CBTR 方法的輸入。測試數據集包含1 000 個常用漢字，分別來自100 位書寫者。本文在Tensorflow 框架下實現CBTR 方法，算法運行的硬件配置如表4所示。

表4 算法運行硬件配置

2.2 實驗設置

表3 給出了6 層集成卷積神經網絡模型，實驗過程中設置每個卷積層后的dropout 比率為：0，0，0，0，0.05，0.1，訓練過程的mini-batch 大小為96，路徑簽名中k=2。訓練數據集與驗證數據集分別按80%，20%分配。

2.3 評價指標

評價指標是針對將相同的數據輸入不同的算法模型，或者輸入不同參數的同一種算法模型，而給出這個算法模型或者參數好壞的定量指標。本文分別選擇峰值信噪比和精度作為評價指標。峰值信噪比，即原圖像與處理圖像之間均方誤差的對數值。對于2 張灰度圖像K 和L，則二者之間的均方誤差定義為：

峰值信噪比定義為：

精度，即分類正確的樣本數占總樣本書的比例[23]。對樣例集D，xi∈D（i≤m），fxi，yi分別表示預測分類值與實際分類值，則精度定義為：

2.4 實驗結果與分析

2.4.1 圖像增強方法有效性驗證

表5 給出了圖像增強方法實驗對比結果，對比所有驗證集原始圖像的平均PSNR 值與增強后圖像的平均PSNR 值。本文提出的圖像增強方法簡寫為CBIE，未使用圖像增強方法處理低清晰度圖像的原始方法記為Low-input。實驗結果表明CBIE 方法能夠提升PSNR 值8.35 dB，有效提升了圖像質量，降低圖像噪聲對文字識別準確度造成的影響。

表5 圖像增強方法實驗對比結果

2.4.2 CBTR 方法有效性驗證

DLQDF[25]和MCDNN[9]方法是經典的文字識別方法，DeepCNet[22]方法是近年表現較好的一種基于CNN 的文字識別方法。因此，本文選擇上述3 種方法作為實驗基準方法。其中CBTR-none 表示僅使用CNN 模型訓練學習；CBTR-ie 表示僅包含圖像增強方法的CNN 模型；CBTR-ps 表示包括路徑簽名的CBTR 方法；CBTR-ps-8dir 表示不包括假想筆畫特征的CBTR 方法；CBTR-ps-is表示不包括8 方向特征的CBTR 方法；CBTR 方法則為本文完整集成CNN 模型，包括假想筆畫、路徑簽名和8 方向特征。實驗結果如表6 所示，表中最后一列為模型評價指標精度。

表6 文字識別方法實驗對比結果

從表6 可以看出，CBTR 方法顯著優于各基準方法。相較于DLQDF，MCDNN 與DeepCNet 方法，CBTR 方法的精度分別平均提升了5.82%，5.38%與3.24%。DeepCNet 與CBTR-ie 方法明顯優于另外兩個基準方法，表明深度學習方法在文字識別領域具有優越性。其中，CBTR-ie 方法的精度僅稍好于DLQDF 與MCDNN 方法。與CBTR-none 方法相比，CBTR-ie 方法的精度提升了1%，證明了本文提出的圖像增強方法的有效性。CBTR-ps-8dir 方法的精度略高于CBTR-ps 方法。雖然路徑簽名方法通過數學微積分的計算，已經得到了筆跡特征的方向信息，但其無法涵蓋更多方向，如8 個方向的所有筆畫方向特征。因此，路徑簽名方法與8 方向特征方法的融合，能夠相互互補，精度提升了0.14%。此外，路徑簽名方法與假想筆畫的融合，精度提升了0.31%，表明假想筆畫得到的起筆、落筆特征在文字識別中提供了較高的區分度。最后，通過結合所有這些筆跡特征，CBTR 方法實現了高精度93.41%。

對比不同方法的運行效率，傳統方法DLQDF的平均每張圖像處理時間遠低于其他基于卷積神經網絡的方法，處理時間低至2.4 ms。這是由于DLQDF 僅依賴于筆跡特征計算，不需要模型訓練，提升了方法的運行效率。DeepCNet 方法的處理時間高于其他方法，歸因于其自身復雜的訓練網絡。CBTR 方法精簡了DeepCNet 網絡，平均每張圖像處理時間為30.08 ms，比DeepCNet 方法的處理時間降低了13.44%，較好地兼顧了處理時間與精度。

假想筆畫、路徑簽名和8 方向特征分別作為特征矩陣輸入，將輸出3 種CNN 結果。CBTR 方法采用結合策略計算預測結果。表7 給出了本文集成CNN 算法使用不同結合策略的實驗對比結果。結合策略主要有3 種：平均法、投票法與學習法。本文實驗則對比了簡單平均法與簡單投票法的對比結果，學習法將在未來進一步探索。其中，CBTR-avg 表示使用簡單平均法的結合策略；CBTR-vot 表示使用簡單投票法的結合策略。從實驗結果可以看出，CBTR-avg 方法的精度高于CBTR-vot 方法，簡單平均法更適用于本文場景。

表7 不同結合策略的CBTR 方法實驗對比結果

3 結論

本文針對電力操作票圖像文字識別，提出了一種基于CNN 的電力操作票文字識別方法，能夠實現操作票圖像“清晰度增強、文字準確識別”的功能。該方法具有如下特點：

（1）使用自定義三層CNN 訓練得到非線性映射函數，輸出高PSNR 值圖像，便于后續文字的準確識別。

（2）通過融合假想筆畫、路徑簽名與8 方向特征等筆跡特征，構建集成CNN 模型，最后通過簡單平均法計算文字分類結果，提升了文字識別的準確度。

（3）在實際運維檢修中操作票圖像樣本及數據集上進行實驗，實驗結果證明了圖像增強、筆跡特征均能提升CNN 模型的性能。