基于視覺注意力模型的電表銘牌識別研究*

2022-10-20 01:09:38張忠寶張威魯觀娜彭鑫霞

電子器件 2022年3期

劉影，張忠寶，張威，魯觀娜，彭鑫霞

(國網冀北電力有限公司,北京 102208)

當前對電表等電力設備的管理已經越來越多地引入了各類智能化手段,以促進電網管理的數字化水平。其中,實現電表銘牌的自動化識別是極為關鍵的一項技術,對提升電表設備在歸檔,維修以及更換等管理各環節的效率有重要意義[1-3]。

針對這一問題,本文提出一種使用深度學習技術的電表銘牌識別方法。該方法采用了自然語言處理問題中常用的編碼器-解碼器結構,便于引入注意力機制。相比基于傳統圖像處理的識別技術,本文方法避免了復雜的圖像特征工程(feature engineering)過程,引入了卷積神經網絡(convolutional neural networks,CNN)用于自動提取圖像特征；同時,相比一般的純視覺方法,本文將自然語言處理領域常用的注意力模型引入銘牌識別任務,這一機制可以引導模型關注圖像中涉及文字的重點區域,進一步結合語言模型,提升識別效果。本文通過在真實數據上的實驗驗證了該方法的優勢。

1 相關研究

銘牌或標牌識別是一類典型的場景文字識別(scene text recognition)任務[4]。所謂場景文字,指的是直接包含在自然場景圖像中的文本,區別于以規則樣式印刷的文本。相比印刷文本,場景文本在樣式(顏色,字體等)、清晰度(分辨率)甚至內容方面都具有更高的不確定性,因此復雜程度往往也高于一般意義上的光學字符識別(optical character recognition,OCR)問題。

端到端的場景文字識別任務通常分為兩個主要步驟:文字檢測,在圖像上分割出包含文字的區域；內容識別,輸出該區域內的具體文本內容[5]。前者是一種目標檢測問題,對于銘牌識別這類特定的場景文字識別任務,由于具備了銘牌特征的先驗知識,可以通過常用的目標檢測器如單發檢測器(singleshot detection,SSD)或區域卷積神經網絡(region-CNN,RCNN)來完成[6-7]。本文重點關注第二個步驟的問題。

現有的內容識別技術通?；陬A先定義的詞典,即通過限制內容的范圍來實現更高精度的識別。對于樣式變化較少、內容標準化程度較高的一類場景文字,如車牌號、身份證等,這一方法能達到極佳的效果[8-9]。顯然,這主要是因為此類場景文本內容多樣化程度低,預設詞典提供了可靠的先驗知識。而電表銘牌的內容與樣式豐富度無疑要高得多,很難單純通過詞典來限制,因此銘牌識別更偏向于無約束或半約束的文本內容識別,這也是本文主要研究內容。

2 模型結構

本文提出的電表銘牌識別方法主要基于具有編碼器-解碼器(encoder-decoder)框架的視覺注意力模型,具體結構如圖1 所示。這一框架常用于自然語言處理與時序預測等序列到序列學習任務,本文將其引入銘牌識別這一計算機視覺問題中[10-12]。編碼器將文字檢測步驟中分割出的含有文本的局部圖像作為輸入,并通過卷積神經網絡將該圖像編碼為卷積特征序列。視覺注意力模型則基于多層感知器(multi-layer perceptron,MLP)結構,被嵌入編碼器與解碼器之間。在解碼器依次識別出圖像中的文本內容時,注意力模型通過調整注意力權值,在每一步使解碼器重點處理文字序列的特定部分。隨后,基于長短時記憶網絡(long short-term memory,LSTM)的解碼器逐步輸出一系列文字,拼接為最終的識別結果。

圖1 視覺注意力模型的編碼器-解碼器結構

2.1 編碼器

編碼器部分使用卷積神經網絡結構從圖像中自動提取特征。但不同于一般的CNN 分類模型。在卷積層后使用全連接層生成固定長度的特征向量,這里結合了注意力機制的思想,直接使用網絡中最后一個卷積層產生的特征,通過這種處理,可以生成一組卷積特征向量,其中每個特征向量都對應一個特定的視覺感受域(receptive field),進一步則對應圖像空間中的特定區域。因此,通過注意力模型,后續的解碼器部分可以基于此空間信息關注圖像的最相關部分,這一過程也模擬了人眼對于圖像的觀察行為[13-14]。

如圖1,給定含有文字的輸入圖像,編碼器將生成一組特征向量:

式中:xi代表對應圖像第i個區域的特征向量,本質上,每個xi都是由一部分圖像空間信息經過卷積層特征映射生成。

2.2 視覺注意力模型

自然語言處理中的注意力機制可分為軟注意力(soft attention)與硬注意力(hard attention)兩類。類比到銘牌識別領域,硬注意力機制會使解碼器根據注意力值大小只關注具有最大值的部分,軟注意力機制則會取若干個區域加權平均后由解碼器處理[15-16]?？紤]到含文字圖像的特性,在區域劃分細粒度程度高的情況下,字符跨越多個空間單元是普遍現象,因此基于軟注意力機制的處理更為合理,即通過注意力權值組合對應不同空間區域的多個特征向量。

如圖1,視覺注意力模型在每個時間步上都生成向量zt,該值將作為LSTM 解碼器的輸入特征。zt可以表示為式(1)中向量組Ψ的加權組合,即

式中:βt,i為權值,且在每個時間步t,有

因此,向量zt實際上編碼了圖像各區域的相對重要性信息,該信息反映了某個區域對于文字識別結果的貢獻程度。βt,i可以簡單地通過一個全連接神經網絡(其輸入-輸出映射記為f)連接softmax 分類器獲得。具體地,首先將編碼器的特征向量xi與前一個時間步LSTM 解碼器的隱狀態向量ht-1輸入全連接網絡得到

再經過softmax 函數得到

容易驗證式(5)得到的注意力權值滿足式(3)規定的歸一化條件。

2.3 解碼器

解碼器部分基于長短時記憶網絡,在每個時間步輸出給定字符集L中的一個字符。實際上,解碼器的輸出格式是一個｜L｜維的向量,每個維度上的值代表實際字符是該字符的概率。輸出向量依賴于注意力向量zt,前一時間步解碼器的隱狀態ht-1與輸出向量yt-1,其依賴關系用矩陣形式可以表示為

式中:T和E都是一個由網絡訓練得到的權值矩陣/向量,it,ft,ot與gt則是LSTM 神經元中輸入門(input),遺忘門(forget),輸出門(output)與記憶門(memory) 部分的參數[17]。σ與tanh 分別代表sigmoid 與雙曲正切激活函數。最終的輸出概率為

這里的l0,lh以及lz都是預先設置的重要性參數,也可通過網絡訓練得到。

3 模型推斷

本文使用集束搜索(beam search)技術[18-19]從LSTM 解碼器輸出上推斷識別結果,并結合語言模型進行優化。

3.1 集束搜索

模型訓練完成后,集束搜索在每個可能的詞匯w＝[c1,…,cn]上最大化如下的目標函數

式中:ci表示組成詞的各個字符,特別地,使用cn代表終止符(不代表任何具體字符),當推斷過程執行到該字符時立即結束。

式(8)的形式與語言模型中由詞匯前向生成文本的形式是相似的,這說明可以引入語言模型的思想對集束搜索過程進行一定改進。

3.2 語言模型的引入

文本通過語法和語義形成上下文關系,這意味著對于銘牌識別這類任務,文本本身的這一特征對模型輸出構成一定的約束條件,利用這些條件對于改進識別效果是有益的。盡管LSTM 模型自身可以隱式學習連續字符之間的某些潛在上下文結構,但依然可以基于先驗知識,顯式添加較長的依賴關系。

本文使用最基本的n-gram 語言模型來反映這類關系。n-gram 中假設了任意字符的概率依賴于之前的n個字符,即

式中:＃(c1c2…cn-1)表示序列c1c2…cn-1出現的頻數[20]。將這一假設引入集束搜索,式(8)變為

這里α是一個控制權重的參數。顯然,與式(8)相比,式(10)添加了一個用n-gram 模型反映當前詞上下文依賴的約束項。

4 實驗與討論

4.1 實驗環境設置

實驗中使用的數據集是包含14 萬張圖片的真實電表銘牌數據集,部分樣本如圖2。圖片在光照、清晰度、傾斜程度等各方面都具有較高的多樣性,便于評價識別模型的魯棒性。實驗中使用SSD 目標檢測模型先分割出銘牌圖像中含文字的大致區域,再基于本文模型進行具體的文字內容提取。

圖2 實驗數據集中的部分樣本圖片

實驗中的卷積網絡與LSTM 網絡給基于開源深度學習庫PyTorch[21]搭建,運行在一臺搭載了兩塊NVIDIA GTX 2080Ti 圖形處理器的計算機上。圖1中編碼器部分的CNN 模型由四層卷積層與一個全連接層組成,最后一個卷積層的輸出作為編碼器輸出特征。CNN 的特征圖(feature map)大小為4×13,LSTM 解碼器的輸入為52×512。式(10)中控制上下文依賴的參數α 設置為0.3。實驗中采用的評價指標為精確度,即正確識別出的字符數與總字符數之比。

4.2 實驗結果

本文實驗首先驗證了注意力模型、語言模型與預設字典對識別效果的提升,結果見表1。其中Att表示視覺注意力模型,LM 表示語言模型,n-gram 中的n值取3。

表1 模型優化過程

顯然,視覺注意力模型、語言模型與預設詞典的引入對于模型在銘牌識別任務上的提升都具有一定的意義。本質上,這些步驟都代表先驗知識的增加。其中,視覺注意力模型對于模型性能提升的效果最為顯著,而預設詞典的增益效果則最不明顯,這也說明本文方法在實際應用中無需預先建立大規模詞典。

表2 將本文方法與其他主流模型進行了比較,結論是一致的:視覺注意力模型與語言模型的引入對于銘牌識別模型提升效果十分可觀。表中HMM指隱馬爾可夫模型(Hidden Markov Model,HMM)。

表2 模型性能比較

5 結束語

針對電表等電力設備的銘牌文本內容識別問題,本文提出了一組基于視覺注意力模型的識別技術。在這一問題上,本文方法的主要創新點包括:

(1)相比一般的基于卷積神經網絡的方法,本文將自然語言處理領域中常用的注意力機制引入銘牌識別這一視覺問題,通過注意力權值使模型中的解碼器重點處理與識別結果關系更緊密的圖像區域,提升識別準確度,同時理論上也能提升模型處理的效率；

(2)將語言模型引入了銘牌識別任務中:通過n-gram 語言模型顯式地將文本上下文依賴關系作為銘牌識別的約束條件,實驗結果證明,這一處理進一步提升了模型識別效果；

(3)通過實驗驗證了本文方法對于預設詞典的依賴性較低,這克服了許多傳統方法的一大局限性,同時也說明本文方法具有更高的魯棒性與更廣泛的適用場景。

本文的后期研究包括引入更高階的語言模型,如目前流行的各類預訓練模型和圖網絡,將更復雜的上下文結構引入銘牌識別任務中。