陳虹宇,李鐵軍
(1.集美大學輪機工程學院,福建 廈門 361021;2.集美大學信息工程學院,福建 廈門 361021)
智能儀表讀數數字分割與自動識別的準確性和時效性是國內外圖像處理領域的研究熱點,而智能儀表的數字字符識別是關鍵核心技術,隨著光學字符識別OCR(optical character recognition)技術的深入,智能儀表識別技術也得到了發展。王榕峰[1]定義特定向量與字符相交的次數作為數字特征;崔文成等[2]通過填充區域、字符穿越數和鏤空區域構成數字特征向量,實現票據數字識別;周勝明等[3]結合數字筆畫特征與主分量重建模型的誤差分析,進行數字識別;Zhang[4]利用數字輪廓拓撲結構進行電子儀表數字識別;Jabba[5]利用神經網絡識別法識別儀表數字;Shamim等[6]采用多層感知器識別數字字符,Laroca[7]用全卷積序列進行水表數字字符識別;Wang[8]等用深度學習的方法識表電表。數字字符識別方法大致分為兩類:深度學習和機器學習。深度學習是目前大數據背景下的主流方向,在硬件計算力的支持下,對處理大樣本下的復雜問題具有普遍優越性。機器學習在小樣本和快速性方面具有一定的優勢,計算量少,對硬件要求低,不足是特征依賴人工提取,準確性得不到保證。但計算量少、硬件成本低、是普通儀表推廣使用中最大的優勢[9]。
儀表字符圖像通過安裝圖像采集設備得到,在特定表盤的背景下既有多個字符,還有整字和半字、角度傾斜等不確定因素,常規整字的特征和算法對于傾斜和非整字的字符難以適應[10]。本文用一種簡單易行的基于灰色關聯度的儀表數字字符識別方法,將受不確定因素影響的信息當作灰度信息,構建數字硬度特征序列,對待測樣本與目標樣本的硬度特征進行關聯度分析,依據關聯度大小對待測樣本進行分類,將具有最大關聯度對應的樣本作為識別結果,從而完成數字的識別與分類。
灰色關聯分析是灰色系統理論[11]的重要分支,灰色關聯分析的基本思想是通過計算參考序列曲線與比較數據序列曲線的灰色關聯度來判斷序列的聯系緊密度。
(1)
對于ξ∈(0,1),ξ為分辨系數,ξ越小,關聯系數間的差異越大,區分能力越強,通常ξ取0.5。灰色關聯度計算的思路是利用最大和最小位移差來計量兩數列之間的相似性。根據關聯度的定義,可計算各帶識別樣本與模板樣本的關聯度,依據從大到小的順序,得出識別結果。關聯度越大,表明識別對象與模板樣本平均距離越接近。
廣義的灰色關聯度分為灰色絕對關聯度、灰色相對關聯度以及灰色綜合關聯度。
定義2 設X0=(x0(1),x0(2),…,x0(n)),…,Xi=(xi(1),xi(2),…,xi(n)),



ε0i(k)=(1+|s0|+|si|)/(1+|s0|+|si|+|si-s0|)。
(2)
為X0與Xi的灰色絕對關聯度,簡稱絕對關聯度。

記
則
(3)
為X0與Xi的灰色相對關聯度,簡稱相對關聯度。
灰色相對關聯度,表征了序列曲線相對于始點的變化速率之間的關系,ri(k)越大,反映帶識別樣本與模板樣本變化率越接近。
定義4 綜合考慮絕對關聯度和相對關聯度的影響,共同決定的關聯度叫綜合關聯度。設ε0i和γ0i分別為X0與Xi的灰色絕對關聯度和相對關聯度,則灰色綜合關聯度為:
ρ0i=αε0i+(1-α)γ0i。
(4)
其中:α∈[0,1],若考慮兩種關聯度作用平等,則α=0.5。
灰色綜合關聯度既體現了序列曲線X0與Xi的相似程度,又反映了X0與Xi相對于始點的變化速率的接近程度,是較為全面的表征序列之間聯系是否緊密的一個數量指標。因此本文以綜合灰色關聯度為主要分析指標。
2.1儀表數字字符檢測
采集到的儀表圖像如圖1a)所示。根據特殊背景下的圖像,可以看出表盤數字區域在矩形框內,且顏色與周邊區域相差很大。通過灰度化和二值化處理后,儀表圖像如圖1b)所示。為防止數字噪音引起的干擾,將二值化后的圖像進行形態學處理,即對二值化圖像進行膨脹、腐蝕操作,使數字上下部分連通。通過分析連通域的位置關系和連通的性質,對字輪進行分割,得到字輪圖像,將矩形連通區域劃分出來,定位字輪邊框圖像。對連通域外輪廓矩形輪廓,確定中心點位置并標定矩形框,利用垂直投影將每個字符按單字分割開來,分割出字符區域如圖2所示。


特征提取和分類技術是圖像識別的關鍵。機器學習的方法中特征更具直觀性,分為統計特征和結構特征。統計特征指利用統計方法獲得的特征,包括特征區域、矩及密度等特征;結構特征是對字符的筆畫進行研究分析,包括筆畫和輪廓,如凹陷、梯度、曲率、穿越、鏤空等特征。這些方法直觀地描述字符結構特征,在字符定位準確且無任何角度傾斜的整字識別上,可以獲得穩定性較好的識別結果[1~3]。
字符硬度特征[11]的思想源于統計特征和結構特征的綜合。單一統計特征比如圖像矩特征很難區分比如數字5與6、8、9、0,1與4。在表盤原始圖預處理后,經分割,得到儀表表盤數字,如圖3所示。從圖3上可以看出,數字1和4垂直投影曲線接近,數字5、6、8、9、0的垂直投影也極為接近。但結合字符結構特征發現,每一個字符在不同字符高度的密度區別很大,通過大量實驗數據分析得出,1與4在自下而上1/5處的字符高度里區分度最高,8、9與0在自下而上1/5、2/5、3/5處區分度都十分明顯。故本文采用把字符五分切割,通過統計目標字符在目標區域里的像素密度,即單位面積下目標像素的充滿度,定義硬度特征,它能體現數字圖像目標區域在某方向上的抵抗變形的能力。定義根據數字圖像投影方向不同,可分為水平投影和垂直投影。硬度特征也分為水平硬度特征和垂直硬度特征。圖4分別給出了整字傾斜角度為0°和15°的數字水平投影,數字的水平投影對傾斜不敏感,傾斜15°仍變化不大,且不同高度處特征仍然明顯。字符在不同比例高度下硬度差距甚大,且對傾斜不敏感,故對圖像采集裝置安裝所導致的小范圍角度傾斜不需要作傾斜校正。本文選用水平硬度作為硬度特征。
將從儀表表盤獲得的0~9的數字進行歸一,結合數字自上而下及自下而上不同的筆劃結構和統計特性,分別采取自上而下和自下而上1/5、2/5、 3/5、 4/5、5/5處10個不同比例高度下硬度值作為圖像特征進行分類,從而完成硬度特征提取。水平硬度特征序列見表1。


表1 數字0~9對應的水平硬度特征序列
灰色關聯分析[11]通過確定參考序列和若干個比較序列的幾何形狀相似程度來比較其聯系程度。灰色關聯度表明了兩種序列的平均距離;絕對灰色關聯度反映兩種序列的相似程度;灰色綜合關聯度既體現了序列間的相似程度,又反映了序列變化速率的接近程度。采用灰色關聯分析方法對一個灰色系統進行分析,首先得選準反映各特征的數據序列。
本文利用綜合灰色關聯度進行數字字符識別,選擇字符統計特征硬度指標作為分析序列,利用待測字符與樣本訓練集中的字符硬度特征關聯度進行識別。提取測試樣本特征序列,建立灰色關聯矩陣,根據灰色關聯度、相對關聯度量化模型,利用Matlab程序計算系統特征變量數據序列之間的灰色關聯度。灰色關聯度表明了待測樣本與模板樣本的平均距離;相對灰色關聯度反映待測樣本與模板樣本的相似程度。根據優勢分析原則,得出關聯順序,完成對數字的識別和分類,具體有如下6個識別步驟。
1)讀入歸一的待測儀表字符圖象。
2)統計連通域高度H,判斷各字符是否為整字,HT為樣本字符高度,若|H-HT|/HT≤3%,則為整字,反之為非整字。
3)對各個數字字符進行特征提取,構成待識別樣本序列,整字的特征采取自上而下Hi=[1/5HT,2/5HT,3/5HT,4/5HT,HT],i=1~5和自下而上Hj=[1/5HT,2/5HT,3/5HT,4/5HT,HT],j=5~10的兩個方向的10個特征,組合成待識別字符圖像特征集X0=(x0(1),x0(2),…,x0(10))。
4)非整字由字符重心位置高度決定“灰數”和“白數”特征。若字符重心位置在1/2HT以上時,把自下而上方向的特征值看作“白數”,將自上而下的特征值看作“灰數”;反之對于重心位置低于1/2HT的非整字,把自下而上方向的特征值看作“灰數”,將自上而下的特征值看作“白數”。對各個數字字符進行特征提取,用*表示灰數值,將上下兩部分特征保存到Xu0=(x0(1),x0(2),…,x0(10))和Xd0=(x0(1),x0(2),…,x0((10))中。
5)計算待識別字符圖像的特征集與訓練樣本集中第i個數字字符特征的灰色綜合關聯度,比較得出最大的ρmax=ρoi,判斷待測數字即為第i個數字字符。
6)半字得出的上下連通域的關聯度最大的字符,且滿足上下兩個半字具有數字相鄰的性質,得出兩半字識別結果,最后根據讀數需要,選擇字符高度大的半字作為最后識別結果。
在MATLAB環境下,讀入圖像,成功分割后,提取一字符硬度特征為:X0=(3.20,1.20,0.80,0.55,0.50,3.50,1.30,0.76,0.50),關聯度對比見表2所示。由表2可知,絕對關聯度:ε05>ε02>ε03>ε08>ε00>ε09>ε06>ε07>ε01>ε04;相對關聯度:γ05>γ03>γ02>γ08>γ00>γ09>γ06>γ07>γ01>γ04;綜合關聯度:ρ05>ρ03>ρ02>ρ08>ρ00>ρ09>ρ07>ρ06>ρ01>ρ04。本文考慮綜合關聯度為分析指標,待測序列與樣本5序列綜合關聯度最大,故可判斷待測數字字符為“5”。

表2 關聯度對比
對于提取的一組非整字序列Xuo=(* * * * * *1.5 0.7 0.45 0.3)和Xdo=(2.95 1.25 * * * * * * * *),*表示未確定信息值,綜合關聯度計算結果,上連通域ρu07=0.9929最大,下連通域ρd08=0.9942最大,根據表盤刻度特點和連通域的高度,最后識讀數字字符為“7”。對2 500張來自實際電表表盤圖像的數字進行測試,數字樣本字符包括整字、整字符有15°傾斜、整字符有30°傾斜、半字。發現即使整字符傾斜30°,此識別算法對整字和半字的識別都在98%以上,此算法對傾斜度不敏感,對整字和半字都有較好的適應性。表3給出了字符識別結果。

表3 字符識別結果
基于以上實驗分析,將500張電表表盤圖像包括有不同傾斜角度的圖片進行識讀,表4給出了參考文獻[12]中加權硬度特征匹配的方法和本文灰色關聯分析兩種識別方法的結果對比。

表4 不同識別算法結果比較
測試結果顯示,基于灰色關聯分析的方法對旋轉畸變表現出較強的容錯能力,正確識別率在98.4%以上,比加權硬度特征匹配的方法更優。通過對未能正確識別的數字圖像進行分析,發現受采樣時受鏡面反光導致過度光照強度影響而產生了噪聲,出現表盤字輪區域與數字連通的情況,影響了字符的分割。經調整光照后,該算法都能正確識別。實驗結果表明本文方法的有效性。
本文考慮灰色關聯分析具有標準樣本量小,不需要規律的特點,通過字符自上而下和自下而上兩個方向的不同高度范圍內的像素統計值,構建字符硬度特征序列,將受不確定因素影響的信息當作灰度信息,具有最大灰色綜合關聯度的樣本作為識別結果,從而完成對儀表數字字符的識別。該算法計算簡單,硬件容易實現。