段磊,劉濤,李偉鵬,張寧,咸日常,鄒國鋒
(1.國網(wǎng)山東省電力公司淄博供電公司,淄博 255000;2.山東理工大學電氣與電子工程學院,淄博 255049)
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,電力部門涉密文件檔案的信息化建設(shè)和智能化管理在檔案事業(yè)發(fā)展中扮演著越來越重要的角色[1]。因涉密文檔材料的特殊性,在一定程度上影響了其數(shù)字化的進程,例如,目前實體涉密文件收發(fā)登記方式仍然需要通過人工錄入等手段,將相關(guān)信息在數(shù)據(jù)庫中進行歸集、匯總和索引,以便于信息的檢索和查詢。顯然,現(xiàn)有的涉密文檔收發(fā)文登記方式已不能夠滿足智能化管理的需要,因此亟需通過一套先進的管理系統(tǒng)對各類收發(fā)文件進行歸類登記和匯總,在減少人員投入的同時,確保重要文件數(shù)量及傳閱路徑的全過程管控,利用信息化手段提高工作效率。
在文檔資料管理過程中,通常需要為每一份文檔分配一組唯一的文檔編號,作為該文檔的識別碼,這不僅方便于文檔的分類存放,也便于文檔查詢。因此,在實體涉密文件的收發(fā)登記時,可以通過圖像采集的方式獲取文檔編號,然后基于文檔編號自動識別技術(shù)實現(xiàn)涉密文件的自動收發(fā)登記。因此,文檔編號的自動識別成為涉密文件收發(fā)信息準確登記的關(guān)鍵影響因素。按照書寫形式不同,電力部門文檔編號分為機打編號和手寫編號兩種,且文檔編號通常由省份簡稱、英文字母、數(shù)字、連接線混合編寫組成。正是由于文檔編號書寫形式不同和復雜的組編方式,導致文檔編號識別的準確度與實際需求產(chǎn)生較大差距。
秦守鵬[2]采用工業(yè)相機采集軌道噴繪區(qū)域圖像,經(jīng)過圖像預處理后獲取圖像目標區(qū)域,然后采用Tesseract-OCR技術(shù)實現(xiàn)軌道板編號識別。趙麗科等[3]提出基于BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)田徑運動員號碼牌圖像的號碼識別。該算法采用可形變部件模型進行人體檢測,并基于先驗知識實現(xiàn)運動員號碼牌定位,然后通過字符分割和BP網(wǎng)絡(luò)識別了號碼牌識別。陳哲[4]通過閾值分割獲取印章編號區(qū)域,并進一步基于卷積神經(jīng)網(wǎng)絡(luò)的實現(xiàn)了印章編號識別。顯然,目前已有編號自動識別算法主要針對純數(shù)字序號或機打印書體編號,編號模式比較簡單,數(shù)據(jù)量較小。李少輝[5]采用改進的BP網(wǎng)路實現(xiàn)了低質(zhì)量文本識別,在含有噪聲和缺陷的低質(zhì)量文本圖片中保持了較高的識別準確率。陳英[6]等人采用了自適應(yīng)閾值分割和模板匹配算法實現(xiàn)了水表字符的識別。這些編號自動識別算法無法直接應(yīng)用于文檔編號的自動識別中,但為文檔編號的自動識別提供了可借鑒的思路。
鑒于山東省電力部門涉密文檔信息化建設(shè)的迫切需求,及其當前文檔編號自動識別技術(shù)的不足,本文提出融合特征匹配和稀疏編碼器的文檔編號自動識別方法。首先,通過圖像采集裝置掃描文檔編號,然后對文檔編號圖像進行預處理,主要實現(xiàn)圖像灰度化、二值化和字符分割。對于機打編號,本文提出結(jié)合歐拉數(shù)粗分類與特征匹配再識別的字符識別方法,在一定程度上克服了相似字符之間的干擾。對于手寫編號,本文提出一種自適應(yīng)稀疏編碼網(wǎng)絡(luò)進行編號識別,能夠有效地控制網(wǎng)絡(luò)規(guī)模,達到了較高的手寫編號識別精度。
圖像采集裝置捕獲的圖像為彩色圖像,需要經(jīng)過灰度化、二值化處理,并采用相應(yīng)的字符分割和歸一化算法獲得標準字符圖像。
彩色圖像信息量豐富,但參與識別運算,計算量較大,而對于文檔編號的識別無需過多的顏色信息參與運算。因此為了減少運算量,采用加權(quán)平均法需將彩色圖像轉(zhuǎn)換為灰度圖像:
灰度化處理后,本文采用了基于閾值的二值化方法:

其中,閾值T的選取采用了基于OTSU的方法。經(jīng)過圖像分割后的結(jié)果如圖1。

圖1 二值化后的文檔編號
字符分割是文檔編號識別的重要環(huán)節(jié)。本文采用了投影法實現(xiàn)字符的分割,由于文檔編號通常只有一行,所以只采用垂直方向的投影即可實現(xiàn)字符之間的分割。垂直投影公式:

其中,W為圖像寬度,H為圖像高度。字符分割的部分結(jié)果如圖2所示。

圖2 文檔編號字符分割的部分結(jié)果
由于機打編號字體格式統(tǒng)一,共包含1個“魯”字、26個大寫英文字母、26個小寫英文字母、10個數(shù)字和連接線“—”,即64種模式。模式簡單,數(shù)據(jù)量較少,適合采用特征匹配方式實現(xiàn)快速識別。
模板匹配[7]是經(jīng)典的圖像識別方法之一,其基本原理是從待識別圖像或圖像區(qū)域中提取若干特征量與已有模板相應(yīng)的特征量逐個進行比較,計算它們之間規(guī)格化的相關(guān)量,其中相關(guān)量最大的一個就表示其間相似程度最高,可將圖像歸于該類。模板匹配需要事先構(gòu)建樣本標準模板庫,標準樣本是經(jīng)過二值化處理的數(shù)字模板,且模板大小相同。而待識別字符匹配識別前,通常也需要標準化為模板樣本的大小。本文構(gòu)建的機打文檔編號模板庫如圖3所示。

圖3 部分機打文檔編號模板
目前,機打文檔編號字符匹配通常采用簡單模板匹配法。簡單模板匹配是將標準化后的待識別字符圖像與字符模板逐個匹配,求出其相似度。本文采用的模板匹配相似度計算公式如下:

其中,f表示二值模板圖像,g表示待識別的二值圖像,兩幅圖像的大小一致,均為M×N,Tf和Tg分別表示對應(yīng)于二值圖像中值為1的像素個數(shù),∧表示與運算。
簡單模板匹配能夠?qū)崿F(xiàn)基本的文檔編號識別功能,但是對于相似性較強的字符,也容易產(chǎn)生誤識,例如字符G和Q、C和O、B和8。為了克服誤識情況的發(fā)生,提高文檔編號識別準確度,本文提出通過計算字符圖像歐拉數(shù)進行前期粗分類,然后進行模板匹配識別的思路,對于未正確識別的字符,則采用人工更正方式保證錄入文檔收發(fā)系統(tǒng)的編號正確。
歐拉數(shù)[8]定義為E,它表示一幅圖像區(qū)域中的孔數(shù)H和連接部分數(shù)C的差,即:

其中,連接部分數(shù)C是指圖像中的有多少個單獨連接的部分,而其中的每一個部分都是連接在一塊的,例如字母A,連接數(shù)C為1,孔洞數(shù)H為1,則歐拉數(shù)為0。
手寫編號因不同人的書寫習慣不同,即使相同編號,不同人書寫也可能會產(chǎn)生較大差異,給準確識別帶來困難。因此,針對不同的手寫體文檔編號需要構(gòu)建規(guī)模較大的手寫字符數(shù)據(jù)集,本文采用稀疏自動編碼器網(wǎng)絡(luò)進行訓練學習,獲得豐富的手寫編號特征,構(gòu)建魯棒性更強的分類模型,能有效提升手寫編號的識別準確度。
深度網(wǎng)絡(luò)[9,10]是一種具有多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),通過逐層的自動學習實現(xiàn)輸入數(shù)據(jù)的深層次特征表達和分類。自動編碼器[11](AutoEncoder,AE)是一種包含輸入層、隱層和輸出層的3層神經(jīng)網(wǎng)絡(luò),其中,隱含層實現(xiàn)了對數(shù)據(jù)的特征提取,輸出層則實現(xiàn)了對特征數(shù)據(jù)的重構(gòu)。自動編碼器的訓練目標是使網(wǎng)絡(luò)輸出與輸入數(shù)據(jù)的重構(gòu)誤差最小,其結(jié)構(gòu)框圖如圖4所示。

圖4自動編碼器原理結(jié)構(gòu)框圖
編碼過程如下式:

其中,sf表示隱含層激活函數(shù),通常為sigmoid函數(shù)sf(t)=1(1+exp(-t)),Wd×n是權(quán)重矩陣,p∈Rn×1表示輸入層神經(jīng)元偏執(zhí)向量,輸入向量為x∈Rn×1,編碼輸出為h∈Rd×1,h是輸入向量x的特征表達形式。
解碼過程如下式:

其中,sg表示輸出層激活函數(shù),W′是輸出層權(quán)重矩陣,其數(shù)值與權(quán)重矩陣 Wd×n的轉(zhuǎn)置相同,q∈Rd×1是隱層神經(jīng)元偏執(zhí)項,解碼結(jié)果 x′∈Rn×1作為重構(gòu)數(shù)據(jù)輸出。
自動編碼器權(quán)重矩陣和偏置向量參數(shù)為θ={W ,W′,p,q},基于重構(gòu)誤差最小的原則,實現(xiàn)網(wǎng)絡(luò)模型的訓練學習可實現(xiàn)參數(shù)的自動調(diào)整,重構(gòu)誤差定義如下:

其中,m為訓練樣本數(shù),xi為輸入,x′i為輸出,θ為全體參數(shù)集合。
一般情況下,自動編碼器中隱層神經(jīng)元數(shù)量少于輸入層神經(jīng)元數(shù)量,但如果網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計時,將隱層神經(jīng)元數(shù)量設(shè)置較多,甚至超過輸入層節(jié)點數(shù)量時,自動編碼器仍然能夠?qū)崿F(xiàn)輸入樣本的特征提取,但這樣的網(wǎng)絡(luò)結(jié)構(gòu)所得特征往往存在較多的冗余信息,且增加了參數(shù)數(shù)量,訓練復雜程度顯著增加。因此,研究者提出稀疏自動編碼器(Sparse AutoEncoder,SAE),通過加入稀疏性限制對隱層進行約束,使其變得稀疏。
自動編碼器中添加的稀疏性限制使用的KL散度為:


稀疏自動編碼器的總重構(gòu)誤差如下:

其中,β是控制稀疏限制的權(quán)重因子。
本文采用的深度稀疏自動編碼器由多層稀疏自動編碼器級聯(lián)而成,如圖5所示,前一級網(wǎng)絡(luò)隱層輸出作為后一級網(wǎng)絡(luò)的輸入,并通過貪婪訓練方法逐層訓練每一級稀疏自動編碼器,最終整完成個網(wǎng)絡(luò)的訓練。

圖5 深度稀疏自動編碼器結(jié)構(gòu)圖
為了驗證本文所提文檔編號自動識別算法的有效性,實驗采用MATLAB R2014a軟件實現(xiàn),實驗分為機打編號自動識別和手寫編號自動識別。
本文實驗中采用了50組機打檔案編號作為測試樣本,檔案編號長度不少于6個字符。機打字符模板構(gòu)建已在第2節(jié)中介紹,本文構(gòu)建的標準模板樣本共63個模式,分別為26個大寫英文字母、26個小寫英文字母、10個數(shù)字、1個連接線字符。由于機打編號格式較為規(guī)范,所以前期的圖像預處理工作較少,字符分割過程中,本文利用圖像灰度值垂直投影形成的空白間隙將單個字符分割出來,然后將分割得到的字符進行標準化處理,進一步用于計算歐拉數(shù)和模板匹配。
為了說明本文所采用的基于歐拉數(shù)的前期粗分類和模板匹配相結(jié)合的識別方法的有效性,實驗中與經(jīng)典的模板匹配方法進行了實驗對比,實驗結(jié)果如表1所示。

表1 機打編號自動識別實驗數(shù)據(jù)
實驗數(shù)據(jù)表明了本文所提方法的有效性,經(jīng)過基于歐拉數(shù)的前期粗分類,不僅有效避免了不同字符之間的干擾作用,提升了識別準確率,而且縮小了模板匹配過程中的搜索范圍,有效縮短了模板匹配時間,平均識別時間得到大幅降低。
手寫編號識別實驗中采用了50組隨機手寫的檔案編號作為測試樣本,檔案編號長度不少于6個字符。稀疏自動編碼器訓練過程中,采用了3900幅大寫手寫英文字母圖像、3900幅小寫英文字母圖像、5000幅手寫數(shù)字和連接線圖像用于網(wǎng)絡(luò)訓練,由于“魯”字字符的唯一性,所以無需參與網(wǎng)路訓練。另外,由于手寫編號差異較大,容易存在多種干擾因素,例如墨跡污染、字體傾斜等。因此,在使用測試樣本進行識別前,需要對測試樣本圖像進行必要的圖像去噪增強預處理,并對傾斜角度較大的字體進行校正,經(jīng)過字符分割后將所有手寫字符大小歸一化為20×25像素,用做網(wǎng)絡(luò)輸入。網(wǎng)絡(luò)初始參數(shù)如表2所示。

表2 聚合網(wǎng)絡(luò)初始參數(shù)設(shè)置
在初始網(wǎng)絡(luò)參數(shù)設(shè)置下,手寫檔案編號的識別準確度僅能達到28%,誤差巨大,因此需對網(wǎng)絡(luò)參數(shù)進行調(diào)試。本文實驗中分別對表2中的參數(shù)進行了優(yōu)化和調(diào)整,確定的網(wǎng)絡(luò)最優(yōu)參數(shù)如表3所示。

表3 最優(yōu)網(wǎng)絡(luò)參數(shù)配置
經(jīng)過網(wǎng)絡(luò)參數(shù)的逐步調(diào)整,基于稀疏自動編碼器的手寫檔案號識別性能得到大幅提升,在50組隨機手寫的測試檔案號中識別率達到98%。
本文針對當前涉密文檔信息化建設(shè)中的文檔編號自動識別方法開展研究,通過提出融合歐拉數(shù)和模板匹配的機打編號自動識別算法,有效改善了傳統(tǒng)模板匹配算法在相似字符識別中錯誤率較高的不足,而且較大幅度的提升了自動識別的速率。另外,針對不同人手寫編號差距較大,難以采用傳統(tǒng)識別方法實現(xiàn)編號識別的困難,本文構(gòu)建了大規(guī)模數(shù)據(jù)集,訓練了深度稀疏自動編碼器網(wǎng)絡(luò)模型,實現(xiàn)了手寫編號的高準確度自動識別。本文研究的文檔編號自動識別理論,可以在多種場合的編號識別中進行應(yīng)用。如何將機打編號和手寫編號識別方法進行融合,形成統(tǒng)一的識別理論是我們未來的研究工作。