蔡夢倩,張蕾,王炎,莫娟
(四川大學計算機學院,成都 610065)
如今,數字儀表在各行各業都有著廣泛的應用,由于歷史遺留原因、成本控制考慮、設計需要等因素,仍有相當一部分的儀表不提供與計算機進行數據通信的接口,需要人工錄入儀表讀數。人工錄入儀表讀數需要消耗大量的人力和時間,且結果易受認為因素的干擾。相比之下,根據實時監控捕獲儀表圖像,再利用字符識別方法識別儀表圖像中的讀數就顯得更加便捷。
數字儀表中的讀數通常包含多個字符,傳統方法[1-2]首先通過定位確定字符串的位置,再將字符串分割為單個字符后進行識別。整個過程比較繁雜,且識別結果容易受預處理過程中定位和分割效果的影響。如果我們對數字儀表圖像實現像素級的預測,預測結果同時包含位置信息和類別信息,我們就可以綜合二者直接得到字符串的結果。
本文提出一種基于全卷積網絡的數字儀表字符串識別方法。該方法通過全卷積網絡實現了圖到圖的像素級預測,同時實現了字符的定位、分割與識別。并且,通過加權混合特征學習融合了全卷積網絡中多尺度多層級的特征,使預測結果很好地綜合了位置信息和分類信息,從而得到準確的字符串識別結果。我們采用了包含有多類數字儀表的數據集來展示基于加權混合特征學習的卷積神經網絡方法在數字儀表字符串識別上的出色表現。實驗結果表明,該方法能夠在省略復雜的預處理過程的前提下,由數字儀表圖像直接得到儀表中字符串的識別結果。
本文的主要貢獻如下:
(1)我們提出了一種基于加權混合特征學習的全卷積網絡H-Meter,利用像素級的預測解決了數字儀表字符串的識別問題;
(2)通過加權融合全卷積網絡中多尺度多層級特征的方式,優化網絡結構,使像素級預測結果在位置信息和識別信息上都有很好的表現,提高字符串的識別的準確率;
(3)應用相關數據集的實驗結果表明基于加權混合特征的全卷積網絡能夠直接、準確的識別字符串。
一直以來,對于數字儀表字符識別的研究工作都十分豐富.這些工作所提出的方法基本都包含三個階段:字符區域定位、字符分割和字符識別。
字符的定位和分割通常通過一定的閾值對圖像做二值化處理,對二值化后的圖像進行行掃描和列掃描,利用行掃描和列掃描的結果確定字符串的邊界以及字符串中每個字符的分界點[14-17]。這種預處理方法容易受到噪聲的影響,從而無法獲得正確的字符分割結果。
在字符識別階段,通常采用兩種方法:模板匹配方法[14-15,17]和神經網絡方法[3,18]。模板匹配通過人工的字符模板進行字符識別,神經網絡方法通過訓練進行特征提取實現字符識別。相比之下,模板匹配方法的抗噪能力較弱,例如,不均勻光照、角度傾斜等因素可能會導致字符形變或缺損,在這些情況下,模板匹配方法的識別率就會受到嚴重的影響。在實際應用的過程中,這些干擾因素是難免的,這就使得神經網絡方法更具優越性。但是,無論是模板匹配方法,還是神經網絡方法都會受到預處理結果的影響。
本文提出的基于全卷積網絡的數字儀表字符串識別方法,通過圖到圖的預測,不依賴于預處理方法,直接實現字符的定位、分割與識別。并結合加權混合特征學習,使了全卷積網絡在數字儀表圖像上具有更好的預測效果和更強的魯棒性。
在本節中,主要介紹一種基加權混合特征學習的全卷積網絡,并將其應用于數字儀表字符串識別中。
總結傳統方法解決數字儀表字符串識別的思路:首先,需要確定每個字符的位置;然后,再對每個字符進行逐一識別。如果我們能夠用一個方法同時解決這兩個問題,將極大簡化數字儀表字符串識別的解決過程。
2015年,J.Long等人利用卷積層替代傳統卷積神經網絡中的全連接層以得到圖到圖的預測的方法[7],很好地解決語義分割問題。如果利用全卷積網絡對原始數字儀表圖像實現像素級的預測,使得預測結果與原始圖像中的元素一一對應;那么,我們就可以根據預測結果的分布情況確定背景區域和各個字符區域,并根據每個字符區域內的預測結果確定該字符的分類。由此,設計了用于解決數字儀表字符串識別的全卷積網絡。
該網絡通過卷積層和池化層進行特征提取[5]。由于圖像有其固有特性,圖像一部分的統計特性也可作用于其他部分上,這意味著對于圖像上所有的區域,我們都能使用同樣的學習特征[8]。通過借鑒視覺神經系統中感受野的概念,利用卷積核大小為3×3的卷積層不斷地學習圖像不同尺度的特征,卷積層的權值共享和局部連接的特性,大大減少了網絡的計算量。再通過池化層對數據進行降維操作,該網絡采用最大池化方法,也就是計算鄰域內特征點的最大值,來得到輸入的概要統計,這些概要統計不僅相比輸入具有低得多的維度,而且保持了輸入的特征不變性,進一步減少了網絡的計算量。卷積層和池化層的相關參數信息如表1所示。

表1 網絡的層級信息
為了能產生圖到圖的像素級預測,需要保證網絡的預測結果要與原輸入圖像元素對應,即預測結果為與輸入圖像尺寸一致的預測圖。在每一層卷積之前都對輸入進行padding操作,保證卷積層的輸入輸出圖像尺寸一致;利用卷積核大小為1×1的卷積層替代全連接層得到圖像級預測結果,即網絡結構中不包含全連接層;在最后一層卷積層后添加反卷積層實現上采樣操作將由于池化層下采樣操作逐層變小的特征圖恢復到原圖尺寸,這一過程看作是一個“反向卷積”的過程,其反卷積核的參數也是可學習的。最后,通過Softmax層對每一個像素實現分類。
綜上所述,我們就實現了可以得到數字儀表圖像的像素級預測的全卷積網絡F-Meter,可以用于直接提取數字儀表中字符串的識別結果。
當我們直接使用F-Meter進行數字儀表字符串的識別時,我們會發現預測結果在位置信息上的表現并不理想。這是因為直接將特征圖放大到原輸入圖像的尺寸,會導致其變得非常模糊。為了解決這個問題,我們將網絡較低層級的輸出特征也直接作為預測結果的參考。雖然,網絡較低層級還不能夠很好地提取識別信息,但是,其輸出特征對于局部信息有很好地保留,有助于提升預測結果在位置上的表現。
我們連接了Conv1_2、Conv2_2、Conv3_3和Conv4_3到融合層,實現網絡對多尺度多層級混合特征的學習,再利用融合層輸出的融合特征進行預測。在融合方式上,我們選用加權融合(weighted-fusion)的方式,以防止過多的參考低層特征反而影響預測結果在識別信息上的表現。首先,我們會對Conv1_2、Conv2_2、Conv3_3和Conv4_3輸出特征分別進行加權融合,融合后的特征作為各個層的層級特征(Level Feature)。然后,對層級特征進行上采樣操作,保證所有的層級特征的尺寸都與原輸入圖像的尺寸一致。最后,將尺寸一致的層級特征進行加權融合得到融合特征,并通過Softmax分類層得到分類結果。圖1展示了加權混合特征學習的過程。
在本節中,我們使用本文所提出基于混合特征學習的全卷積網絡H-Meter識別數字儀表中的字符串,并在包含有多類數字儀表的數據集[12]上測試了我們的方法。
本文所提出方法的性能通過字符的精度P(Precision)和召回率R(Recall)來度量。將字符根據真實類別與預測類別字符的組合劃分為四類:真正例、假正例、真反例、假反例。精度,亦稱查準率,在字符識別問題中代表被正確預測地某類字符的數目占被預測為該類字符的數目的比例。召回率,亦稱查全率,代表被正確預測地某類字符的數目占該類字符真實數目的比例。精度和召回率的公式定義如下:

精度和召回率是一對矛盾的度量.一般來說,精度高時,召回率往往偏低;而召回率高時,精度往往偏低。為了能夠綜合考慮精度和召回率,我們還通過精度與召回率的調和平均F1度量來進行模型間的評估,F1的公式定義如下:

由于本文所提出的方法直接實現字符串端到端的預測,所以我們也通過字符串的準確率A(Accuracy)來反映其性能。字符串的準確度代表被正確預測的字符串的數目占字符串總數目的比例,其公式定義如下:

其中,TrueStr代表被正確預測的字符串,FalseStr代表被錯誤預測的字符串。

圖1 加權混合特征學習過程
我們將在包含有多類數字儀表的數據集上測試我們的方法。該數據集[12]由趙凱等人收集整理,共計11385個樣本,其中包含5類數字儀表樣本,不同類別的儀表樣本包含的字符串長度和字體都有所不同,這些樣本是灰度化的3通道圖片,圖片的尺寸50×160,圖3展示了數據集的部分樣本。
我們將在包含有多類數字儀表的數據集上測試我們的方法。該數據集[12]由趙凱等人收集整理,共計11385個樣本,其中包含5類數字儀表樣本,不同類別的儀表樣本包含的字符串長度和字體都有所不同,這些樣本是灰度化的3通道圖片,圖片的尺寸50×160,圖3展示了數據集的部分樣本。

圖2 數據集中的部分樣本示例
由示例樣本可以看出數字儀表數據集中大量存在光照差異、字符串傾斜、字符扭曲等現象,增加了數字儀表的字符識別的難度。但是,經過實驗表明,本文所提出模型依舊能夠準確、高效地識別數字儀表識別中的字符串。
由于H-Meter實現圖到圖的預測,其預測結果為11×50×160的矩陣,對應11個分類(10個數字類和1個背景類),為了從矩陣中字符串結果作為最終輸出,我們需要利用算法1進行字符串提取。
算法1預測矩陣字符串提取算法
輸入:預測矩陣Matrix,閾值t;
輸出:數字字符串結果Str.
將Matrix小于t的元素置0;
for 10個數字i
subMatrix=Matrix(i,50,160);/* 提取 Matrix中數字 i對應的部分*/
查找subMatrix中的連通區域作為字符團,舍棄掉過小的團;
for subMatrix中團的個數K
Str←i;/*將第k個字符團的值加入到字符串中*/
end for
end for
對Loc中的坐標進行排序;
根據Loc中坐標的排序,獲得順序正確的字符串Str。
本小節利用兩組實驗來驗證我們提出的方法的可行性和準確性該數據集并沒有劃分訓練集和測試集,所以我們按照1:9的比例將數據集隨機的劃分為測試集和驗證集。其中,測試集包含1139張數字儀表圖片,訓練集包含10246張數字儀表圖片。
實驗1驗證層級特征融合的必要性。在這個實驗中,我們比較了2.1中所提到的不包含層級特征融合的全卷積網絡F-Meter和基于加權混合特征融合的全卷積網絡H-Meter,并在表2中列出了二者在測試集上的字符精度、召回率、F1度量和字符串準確率。精度、召回率和F1度量取各個字符類的均值。

表2
實驗結果表明,H-Meter在字符精度、召回率、F1度量和字符串準確率上都要遠高于F-Meter,證明網絡較低層級雖然還不能夠很好地提取抽象特征,但是其對于局部信息有很好地保留,合理地融合較低層級的特征輸出對于最終結果的提升有很大幫助。
實驗2驗證加權混合特征學習的有效性。我們對比了基于平均混合特征學習的全卷積網絡和基于加權混合特征學習的全卷積網絡在預測結果上的表現,并結合精度、召回率等性能度量進行比較比較。基于平均混合特征學習的全卷積網絡,通過對池化層的特征輸出進行不斷地上采樣操作并累加的方式實現。

表3
實驗結果表明,雖然同樣融合了較低層級的特征,但是,平均混合特征學習在測試集上的表現遠不如加權混合特征學習在測試集上的表現,甚至過度的依賴低層特征影響了識別結果。所以,對于較低層級的特征也要有學習的進行融合。
本文提出了一種基于全卷積網絡的數字儀表字符識別方法.通過圖像端到端像素級的預測,能夠省去繁瑣的字符識別預處理過程,直接得到字符串的識別結果。實驗結果表明,本文提出的數字儀表字符方法能夠準確、高效地識別自然場景下儀表中的字符串。
參考文獻:
[1]T.E.de Campos,B.R.Babu,M.Varma.Character Recognition in Natural Images[J].In Proceedings of the International Conference on Computer Vision Theory and Applications,Lisbon,Portugal,February 2009
[2]T.Yamaguchi,Y.Nakano,M.Maruyama,H.Miyao,T.Hananoi.Digit Classification on Signboards for Telephone Number Recognition[J].In ICDAR,pages 359-363,2003.
[3]Yujie Liu,He Huang,Jinde,Cao,Tingwen Huang.Convolutional Neural Networks-Based Intelligent Recognition of Chinese License Plates.[J]Soft Computing,2017,2(2):1-17.
[4]P.Dollar,C.L.Zitnick.Fast Edge Detection Using Structured Forests.PAMI,2015
[5]K.Simonyan,A.Zisserman.Very Deep Convolutional Networksfor Large-Scale Image Recognition[J].In ICLR,2015.
[6]G.Bertasius,J.Shi,L.Torresani.Deepedge:A Multiscale Bifurcated Deep Network for Top-Down Contour Detection[J].In CVPR,2015.
[7]J.Long,E.Shelhamer,T.Darrell.Fully Convolutional Networks for Semantic Segmentation[J].In CVPR,2015.
[8]http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial l
[9]S.Xie,Z.Tu.Holistically-Nested Edge Detection.In Proc[J].ICCV,pages 1395-1403,2015.
[10]P Sermanet,S Chintala,Y LeCun.Convolutiona l Neural Networks Applied to House Numbers Digit Classification[J].Pattern Recognition.In ICPR.
[11]Lecun,Y.;Bottou,L.;Bengio,Y.;Haffner,P.Gradient-Based Learning Applied to Document Recognition[J].In Proceedings of the IEEE.pages.2278-2324,1998.
[12]http://o7zt4a6os.bkt.clouddn.com/digit_data.zip
[13]https://github.com/SHUCV/digit
[14]G Qingyu,G Yongfeng.Digital Meter Identify Based on Local Orientation[J].In International Conference on Intelligent Computation Technology and Automation,pages 110-113,2010.
[15]Wei,Bi Gui;Chang,Qing;Yan,Cai Yun;Zhang,Guo Zhen.Recognition System for Digital Meter Dynamic Display from Video Based on MATLAB[J].In Advanced Materials Research.pages 2183-2186.
[16]Tu,Zhen Yuan;Ning,Fang Hua;Yu,Wu Jia.Study about Recognition of Digital Meter Dial Reading Based on SVM[J].In Applied Mechanics and Materials.pages 194-197.
[17]Bin,Ma;Xiangbin,Meng;Xiaofu,Ma;Wufeng,Li;Linchong,Hao;Dean,Jiang.Digital Recognition Based on Image Device Meters.[J].In Second WRI Global Congress on Intelligent Systems.pages 326-330.2010.
[18]Zhao,Li-meng,Zhang,Yun-zhou,Bai,Qiu-shi,Qi,Zi-xin,Zhang,Xin-tong.Research of Digital Meter Identifier Based on DSP and Neural Network[J].In IEEE International Workshop on Imaging Systems and Techniques.pages 402-406.2009.