孟健,曾憲文,高桂革
(1.上海電機學院電子信息學院,上海201306;2.上海電機學院電氣學院,上海201306)
目前,電廠設備巡檢主要依靠人工巡檢,這種方法存在作業環境惡劣、勞動強度大、重復性高的問題,巡檢機器人可以減少工作人員在高危環境下巡檢作業的危險,提高巡檢的質量和效率。巡檢機器人裝有視覺檢測設備,在巡檢過程中可以檢測電廠電氣設備銘牌文字,協助機器人進行場景理解[1]。
從場景中檢測文字用來進行場景理解已經成為了計算機視覺任務的研究熱點,主要分為傳統方法和基于深度學習的方法。傳統的文字檢測算法依靠人工設計特征。文獻[4]利用文字的局部對稱性設計了不同特征檢測文字區域。文獻[5]采用關鍵點檢測進行筆畫提取,設計出一種快速的文字檢測系統。但是在進行低分辨率和畸變圖像的檢測時,這些傳統方法的準確性和適應性不如深度學習方法。文獻[6]首次提出使用MSER(Maximally Stable Extremal Regions)搜索候選文字區域,然后使用深度卷積網絡作為特征分類器刪減錯誤的候選文字區域。文獻[7]提出利用FCN(Fully Convolutional Network)生成熱點圖,然后利用投影進行文字方向估計。文獻[8]將文本檢測和文本識別整合在同一個網絡中共同訓練,共享卷積層,以提高整體性能。文獻[9]提出一種新的文本檢測器TextField 檢測不規則文本。文獻[10]提出一種端到端的文本檢測方法,省去不必要的中間步驟,直接預測文本區域。但是這些方法都是在公共數據集上訓練和測試,對于電廠環境下電氣設備銘牌文字檢測的準確率并不高,文中基于文獻[10]提出一種改進EAST(Efficient and Accurate Scene Text Detector)算法的電廠電氣設備銘牌文字檢測方法,運用更深的網絡進行特征提取和多尺度訓練提高算法對不同尺度圖像的泛化能力,然后運用平衡權重策略改進損失函數解決文字尺度不平衡的問題,環境適應性更強。
EAST 算法是一種快速而準確的文本檢測算法,該算法省去了不必要的中間步驟,直接預測文本區域。
(1)EAST 算法網絡結構
EAST 算法的網絡結構如圖1 所示。
由圖1 可知該網絡分為特征提取分支、特征合并分支和輸出層三個部分。
特征提取分支從VGG-16 網絡的四組卷積層Conv1~Conv4 提取四組特征圖f1、f2、f3、f4,其尺寸分別是輸入圖像尺寸的1/4、1/8、1/16、1/32。

圖1 EAST算法網絡結構
特征合并分支逐層合并生成的四組特征圖,合并過程中首先需要通過unpool 操作統一特征圖的尺度,再通過concat 操作串聯特征圖,然后通過1×1 卷積層減少通道數量和計算量,最后利用3×3 卷積層將局部信息融合產生該合并階段的輸出。在最后一個合并階段之后,使用3×3 的卷積核融合所有的特征并將其送到輸出層。
輸出層分為三個部分:置信度、文字區域和文字區域旋轉角度。置信度由一個1×1 卷積核生成,其取值范圍在[0,1]之間,表示該像素是文字像素的置信度,文字區域由四個1×1 卷積核生成,每個卷積核的值分別表示當前像素到包圍文字的最小矩形框的上邊界距離d1、右邊界距離d2、下邊界距離d3、左邊界距離d4,文字區域旋轉角度由一個1×1 卷積核生成,表示包圍文字的最小矩形框的旋轉角度。
(2)損失函數
原算法的損失函數定義如式(1):

其中,Lcls表示置信度的分類損失,Lreg表示該文字區域及文字區域旋轉角度的回歸損失。
分類損失的定義如式(2):

其中,Y*表示置信度真實值,表示置信度預測值。β是正負樣本的平衡因子,定義如式(3):

回歸損失的定義如式(4):

其中,Lgeo表示文字區域損失,Lθ表示文字區域旋轉角度損失。

式(5)中R* Y*表示文字區域真實值,表示文字區域預測值。式(6)中θ*Y*表示文字區域旋轉角度真實值表示文字區域旋轉角度預測值。
(1)網絡結構優化
原EAST 算法使用圖像分類任務中的VGG-16 網絡作為特征提取網絡,由于網絡的深度只有16 層,使用該網絡檢測的文字準確率不夠高。
圖像分類領域的研究表明,深層的神經網絡能夠提取更多的特征,提高檢測的準確率[11]。文獻[12]中的ResNet-50 網絡將網絡深度增加到50 層,并加入跳躍連接(Shortcut Connection)防止網絡深度增加時出現梯度消失,在圖像分類任務中該網絡的表現優于VGG-16網絡。為了提高電廠電氣設備銘牌文字檢測的準確性,文中引入ResNet-50 網絡替代原算法中的VGG-16網絡提取圖像特征。改進EAST 算法的ResNet-50 特征提取分支參數如表1 所示,其中第一列表示該網絡由五組卷積層Conv1~Conv5 組成,第二列表示每組卷積層包含的隱藏層層數,第三列表示每個隱藏層的卷積核結構,該結構由卷積核的數量長度、寬度表示,如Conv1 隱藏層的卷積核結構64×7×7 表示64 個長為7、寬為7 的卷積核。

表1 ResNet-50 特征提取分支
改進EAST 算法的網絡架構如圖2 所示。從圖中可知,改進后的網絡架構運用ResNet-50 網絡代替VGG-16 網絡提取特征,并取出Conv2~Conv5 的四組特征圖f1、f2、f3、f4輸入到特征合并分支,特征圖尺寸分別是輸入圖像尺寸的1/4、1/8、1/16、1/32。

圖2 改進EAST網絡架構
(2)多尺度訓練
實際電廠環境中銘牌文字受到拍攝距離的影響,不同尺度圖像上的銘牌文字尺度差異大。在訓練階段,原EAST 算法使用固定尺度的圖像進行訓練,因此對于不同尺度的銘牌文字圖像,該算法的泛化能力不高。文中采用多尺度訓練方法,在訓練階段為每張圖像設置224×224、512×512、720×720 三種不同的尺度,然后每張圖像隨機選擇其中一種尺度組成多尺度圖像訓練集。實驗證明多尺度訓練能夠提高算法對不同尺度圖像銘牌文字檢測的泛化能力。
(3)損失函數優化
EAST 算法使用交叉熵損失函數作為分類損失函數,但是該函數的收斂速度慢,訓練過程消耗大量時間,因此為了加快收斂速度,文中引入圖像分割任務中常用的Dice 系數損失函數作為分類損失函數[13],用來表示分數圖預測值和真實值的相似度,如公式(7)所示。

式中|·|表示曼哈頓距離(L1 norm),Y*表示真實值,表示預測值。Dice 損失函數的取值范圍為[0,1]。因為損失函數的值越小訓練的效果越好,所以Ls為0 代表相似度高,Ls為1 代表相似度低。
圖3 為改進EAST 算法和EAST 算法訓練過程中的損失值曲線。圖中可以看出兩種算法在20000 次迭代前的損失值比較接近,經過80000 次迭代后,改進EAST 算法的損失值收斂到0.12 左右,EAST 算法的損失值收斂到0.25 左右。因此改進EAST 算法的收斂速度比EAST 的算法更快。

圖3 損失值曲線
由于實際圖像中文字尺度變化較大,尺度大文字在回歸損失中的權重較大,導致尺度小的文字難以檢測。因此文中運用平衡權重策略對文字區域損失Lgeo進行改進,使不同尺度的文字在Lgeo中的權重保持一致。具體來講,對于一張包含N 個文字區域的圖像,圖像中任一像素p 滿足公式(8):

其中,S 表示圖像中所有文字像素的個數,Sp 表示包含像素p 的文字區域中文字像素的個數,p∈T 表示p是文字像素。當文字尺度較大時,權值會受到抑制,當文字尺度較小時,權值會變大,因此不同尺度的文字區域權重得到平衡。改進后的Lgeo如公式(9)所示:

本實驗在Ubuntu 系統上進行,使用的顯卡為NVIDIA GTX 1080 Ti,內存為8G。
某電廠電氣設備銘牌文字編碼采用KKS 編碼規范,語言為英文[14]。為了提高算法的泛化能力,本實驗使用兩個公開的標準數據集ICDAR2015 和COCOText 數據集預訓練[15-16],這兩個數據集圖像是在室外隨機拍攝的,包含水平和傾斜的英文文字,存在環境光的干擾,和該電廠場景類似。另外本實驗采集了3000 張該電廠電氣設備銘牌文字圖像構成銘牌數據集,并且根據實驗要求使用綠色方框對銘牌區域中的英文編碼進行標注,如圖4 所示。

圖4 標注圖片數據
為了獲得比較高的泛化能力,實驗在ICDAR2015和COCO-Text 數據集上先進行訓練獲得預訓練權重。為了加快訓練速度,實驗使用隨機梯度下降法SGD(Stochastic Gradient Descent)進行優化,批訓練數量為20,默認的動量為0.9,權重衰減系數為0.0005,初始學習速度為0.001,每20000 次迭代以后學習速度衰減為原來的十分之一,學習速度到0.000001 后不再衰減。
為了評估改進前后的算法對電氣設備銘牌檢測的有效性,實驗使用準確率(precision)、檢出率(recall)、F值(F-measure)評價算法的有效性。具體定義如公式(10)所示:

其中,TP、FP、FN 分別表示正確預測的文字區域數、錯誤預測的文字區域數和漏檢的文字區域數。
(1)同場景對比改進前后檢測效果
使用2000 張銘牌數據集圖像對原EAST 算法和結合網絡結構優化、多尺度訓練和損失函數優化的EAST 算法進行訓練,然后將訓練好的模型在1000 張銘牌數據集圖像(包含2065 個銘牌文字目標)進行測試。改進前后算法的效果對比如表2 所示。

表2 兩種算法效果對比
從表2 可以看出改進EAST 算法在檢測準確率上提高了6.1%,檢出率上提高了7.7%,F 值提高了4.2%。圖5 為實際電廠環境下的檢測結果對比,圖(b)可以看出改進EAST 算法能夠準確檢測出較多的英文和數字,而圖(a)中EAST 算法容易出現漏檢。實驗證明改進EAST 算法性能優于EAST 算法。

圖5 實際檢測結果對比
(2)不同置信度閾值檢測效果對比
檢測的準確率和檢出率與置信度閾值的選擇有關,實驗基于改進EAST 算法研究了置信度閾值對檢測效果的影響。圖6 展示了5 種置信度閾值下改進EAST 算法檢測的準確率和檢出率。

圖6 不同置信度閾值對比
從圖6 可以看出隨著置信度閾值的增加,改進EAST 算法檢測的準確率得到提高,但是由于高置信度情況下不考慮許多低置信度文字區域,檢出率在不斷降低。為了同時保證檢測的準確率和檢出率,使用綜合指標F 值來選擇置信度閾值,從圖中可以看出置信度閾值為0.3 時F 值最大,因此置信度閾值選擇0.3。
(3)不同優化方法檢測效果對比
表3 列出了不同優化方法對檢測效果的影響。由于增加了網絡深度后能夠提取更多的特征,方法2 比方法1 準確率提高了2.1%。由于多尺度訓練增加了網絡對不同尺寸圖像的魯棒性,方法3 比方法2 準確率提高了1.2%。方法3 和方法5 對比后發現,優化損失函數后的方法準確率提高了2.8%。實驗證明三種優化方法均能提高算法的有效性。

表3 不同優化方法效果對比
(4)多場景檢測效果
如圖7 所示,實驗測試了多場景下改進EAST 算法的檢測效果。圖7(a)、(b)、(c)、(d)分別展示了金屬反光、透視、文字傾斜角度大、文字磨損條件下改進EAST 算法的檢測效果。實驗表明改進后的算法有較好的環境適應性。

圖7 多場景檢測結果
本文提出一種基于改進EAST 算法的電廠電氣設備銘牌文字檢測方法,運用更深的網絡進行特征提取,同時結合多尺度訓練提高算法對不同尺度圖像的泛化能力,然后運用平衡權重策略改進損失函數解決文字尺度不平衡的問題。實驗驗證了文中提出的算法具有檢測準確性高、環境適應性強的優點,能夠有效提高電氣設備銘牌文字檢測精度,具有一定的工程應用價值。