馮文彬,厲舒南,田 昊,楊 鑫,馬 超,于重重
(1.中煤科工集團沈陽研究院有限公司,遼寧 撫順 113122;2.煤礦安全技術國家重點實驗室,遼寧 撫順 113122;3.北京工商大學人工智能學院,北京 100048)
近年來,計算機視覺算法不斷發展,圖像語義分割算法在煤礦井下圖像方面產生了大量的研究成果[1-4],雖然現有的語義分割算法在能見度良好的圖像上分割結果較好,但在低能見度的煤礦井下圖像上的分割精度較差。而且經過清晰化處理之后的煤礦井下圖像仍然存在邊緣不清晰等問題,從而影響分割的精度。
對于基于深度學習的煤礦圖像語義分割,依據訓練方法和數據集的標簽形式的不同,主要分為以強監督、弱監督和無監督為基礎的方法。現有的語義分割模型多是采用強監督方法,帶有標簽的訓練圖像包含大量的語義信息,像素分類時可以利用充分的局部全局信息,因此強監督語義分割模型現在使用最頻繁,且分割精度也能達到最好。強監督學習的語義分割方法主要分為:擴大感受野法[5-6]、概率圖模型法[7]、特征融合法[8-10]、編碼-解碼器法[11-14]和生成對抗網絡法[15-16]。Zhao 等人[17]基于特征融合的方法提出了PSPNet,空間金字塔池化(Spatial Pyramid Pooling,SPP)單元通過級聯操作融合多比例的特征圖,提取了足夠多的上下文信息;Lin 等人[18]基于編解碼的方法提出了RefineNet 模型,算法在解碼器中設計了多個路徑,充分利用了不同尺度的特征圖,具有更好的優化分割結果。現有的圖像語義分割方法在能見度良好的圖像上的語義分割效果良好,但是將它應用在清晰化處理之后的煤礦井下圖像上時,存在邊緣不清晰等問題,從而影響分割的精度。為了解決煤礦井下圖像邊緣分割不清晰的問題,提出一種基于融合邊緣優化模塊的圖像語義分割方法。
基于融合邊緣優化模塊的語義分割模型,基于編解碼的網絡結構,采用多尺度特征融合方法。模型網絡結構圖如圖1。編碼器部分包括常規特征提取分支和邊緣優化分支2 部分,常規特征提取分支為標準分割網絡,邊緣優化分支以語義邊界的形式處理形狀信息,再融合常規特征提取分支中的語義區域特征和邊緣分支中的邊界特征,以提高圖像在邊界部分的分割結果。解碼器部分采用多路徑優化的網絡結構,由鏈式殘差池化模塊和融合模塊構成。
圖1 融合邊緣優化模塊的模型結構圖Fig.1 Model structure diagram of fusion edge optimization module
為解決煤礦井下塵霧圖像在邊緣處分割精度不高的問題,在網絡中添加了邊緣優化分支,即在原有常規特征提取分支上并行添加了1 個邊緣分支,2個分支之間用門控卷積層進行連接,使用常規特征提取分支中的較高級別的激活來控制邊緣分支中的較低級別的激活,從而有效地去除噪聲,使得邊緣分支僅專注于處理相關的邊界信息。常規特征提取分支Rθ(I)具有參數θ,輸入為高度H 和寬度W 的圖像I∈RB×H×W,輸出像素特征。邊緣優化分支Sφ具有參數φ,輸入為圖像梯度▽I 以及常規特征提取分支第1 個卷積層的輸出,輸出為生成的語義邊界。邊緣優化模塊的網絡架構如圖2。
圖2 邊緣優化模塊的網絡結構圖Fig.2 Network structure diagram of edge optimization module
邊緣優化模塊由門控卷積與3 個殘差模塊交錯構成,門控卷積保證邊緣分支僅處理邊界相關信息,邊緣優化分支的輸出邊界圖用S∈RH×W表示,通過殘差結構、門控卷積和監督學習將注意力只關注在邊緣輪廓部分,考慮將圖像梯度也加入到網絡中,因此采用Canny 算子計算圖像的梯度,對圖像邊緣進行檢測,將檢測到的邊緣信息與邊緣分支的輸出進行融合,并與常規特征提取分支的輸出一起作為解碼器部分的輸入。
多路徑優化網絡模塊結構圖如圖3。
圖3 多路徑優化網絡模塊結構圖Fig.3 Multi-path optimization network module structure diagram
解碼器部分采用Light-Weight RefineNet[19]中的多路徑優化的網絡結構,由鏈式殘差池化模塊和融合模塊構成。鏈式殘差池化模塊由一系列的池化層與卷積層構成,以殘差的形式排列。融合模塊則是對2 路數據分別執行卷積并上采樣后求和。解碼器的特點是使用了一定數量的殘差連接,在整個語義分割網絡內部形成了短距離連接的同時,還與特征提取網絡形成了長距離的連接,不僅有助于訓練,還能讓梯度有效傳遞回網絡中。
門控卷積層是邊緣優化分支結構中的核心組件,以方便信息分支從常規特征提取分支流向邊緣分支,通過過濾其他信息幫助邊緣分支來處理相關信息。邊緣優化分支使用門控卷積層禁止常規特征提取分支中特性的激活,這些特性的激活被常規特征提取分支中包含的更高級別的信息認為是無關的。其中功能更強大的常規特征提取分支已經形成了對場景的更高層次的語義理解,幫助邊緣分支只關注相關部分。這使得邊緣優化分支即使采用淺層結構,也能以非常高的分辨率有效地處理圖像。
邊緣分支中多次使用門控卷積層,t 為位置編號,t∈0,1,…,m 為運行索引,rt和St為門控卷積處理的常規特征提取分支和邊緣分支的中間表示,‖為特征圖的串聯。如圖3(c),首先將rt和St連接,然后通過歸一化的1×1 卷積層C1×1和Sigmoid 函數δ,得到注意力圖αt∈RH×W,表達式如式(4):
將S^t輸入到邊緣分支中的下一層繼續處理。門控卷積和注意力映射計算都是可微的,上采樣常規特征提取分支中的特征映射時使用雙線性插值,因此反向傳播的時候可以實現端到端。
圖像邊緣信息主要集中在高頻段部分,高頻濾波通常用作圖像銳化或檢測邊緣。微分運算求解信號的變化率,能夠加強高頻分量。在空域運算中,對圖像的銳化就是計算微分,數字圖像的離散信號導致微分運算變成計算差分或梯度。Canny 邊緣檢測算子比較常用,它是一種多級檢測算法。它通過高斯模糊去除邊界檢測的高頻噪聲,采用非最大值抑制和雙閾值的方法對邊緣進行細化,利用滯后邊界跟蹤探索每個弱邊緣點的周圍8 連通域像素是否有強邊緣點從而判斷是否是真邊緣點。為此,利用Canny 邊緣檢測算子提取物體的邊緣信息,將信息添加到邊緣優化分支輸出的特征圖中,輔助煤礦塵霧圖像輪廓的學習。
采用實際拍攝到的井下煤礦圖像制作煤礦圖像語義分割數據集,對相應的類別進行語義標注,構建的煤礦圖像語義分割數據集共包括1 800 幅圖像,每張圖像大小為640 像素×480 像素,其中1 300 幅作為訓練集,500 幅作為測試集,共包含4 個語義分割的類標簽,類別分別為:人、鉆桿、打鉆機器、手板。選擇平均交叉重疊率(mean IOU)作為語義分割圖的評價指標,mIoU 是求解標簽值集合和預測值集合的交集與并集的比值,通常是基于類別進行計算的,計算每個類別的交并比,累加后求平均,得到基于全局的評價,mIoU 計算如式(6):
式中:TP 為預測正確,預測結果是正類,真實是正類的個數;FP 為預測結果是正類的預測錯誤,真實是負類的個數;FN 為預測結果是負類的預測錯誤,真實是正類的個數。
默認情況下,選取隨機梯度下降算法優化網絡,對整個網絡進行300 個時期的訓練,默認的編碼器初始學習率設置為0.000 5,默認的解碼器初始學習率設置為0.005,所有試驗均在1 個GPU 上使用默認的批處理大小訓練為6。在100 和200 個epoch 之后,將學習率降低了1/2,并持續訓練直到300 個epoch,或者直到更早收斂為止。
為對煤礦井下圖像語義分割結果進行定量和定性分析。在煤礦圖像測試集上測試網絡模型,并與最近的語義分割方法Light-Weight RefineNet 做了對比。煤礦圖像數據集語義分割原圖如圖4,Light-Weight RefineNet 方法語義分割結果圖如圖5,本文方法語義分割結果圖如圖6。
圖4 煤礦圖像數據集語義分割原圖Fig.4 Original images of semantic segmentation of coal mine image data set
圖5 Light-Weight RefineNet 方法語義分割結果圖Fig.5 Semantic segmentation result diagrams of Light-Weight Refinenet method
圖6 本文方法語義分割結果圖Fig.6 Semantic segmentation result diagrams of this method
對煤礦井下圖像語義分割結果進行定量分析,圖4 展示了4 張煤礦圖像數據集的語義分割原圖。圖4(a)為井下人員背面圖,圖4(b)為井下人員正面圖,圖4(c)為作業人員更換鉆桿圖,圖4(d)為打鉆機器圖。圖5 和圖6 分別展示了Light-Weight RefineNet 方法和本文方法在煤礦圖像數據集上的語義分割結果圖,其中圖5(a)和圖6(a)為井下人員背面分割圖,圖5(b)和圖6(b)為井下人員正面分割圖,圖5(c)和圖6(c)為作業人員更換鉆桿分割圖,圖5(d)和圖6(d)為打鉆機器分割圖。
由圖4 和圖6 可以看出,提出的融合邊緣優化模塊的語義分割算法能夠有效分割煤礦井下中的不同物體,針對清晰化處理之后的煤礦井下低能見度圖像仍然存在的邊緣不清晰導致分割精度低的問題,本文采用了融合邊緣優化模塊的方法,由圖5 和圖6 可以看出提出的語義分割方法在邊緣處的分割效果更準確。
煤礦圖像語義分割數據集平均交叉準確率見表1,煤礦圖像語義分割數據集各類別分割準確率見表2。
表1 煤礦圖像語義分割數據集平均交叉準確率Table 1 Average cross accuracy of semantic segmentation dataset of coal mine images
表2 煤礦圖像語義分割數據集各類別分割準確率Table 2 Classification accuracy of coal mine images semantic segmentation dataset
從表2 每類的分割準確率上來看,提出的融合邊緣優化模塊的語義分割算法在煤礦圖像語義分割數據集上的各個類別上面準確率取得了比現有語義分割方法Light-Weight RefineNet 更高的分數,表明了提出的融合邊緣優化模塊的語義分割算法在煤礦井下中的多個物體的語義分割上面都能取得較好的結果,且本文的改進對不同物體的分割結果均有不同程度的提升,進一步證明了提出的邊緣優化模塊對分割結果起到了一定的優化作用。
針對現有語義分割算法應用在清晰化處理之后的低能見度圖像上分割精度低,提出了一種融合邊緣優化模塊的語義分割算法。通過將邊緣信息連接為1 個單獨的邊緣分支處理分支,融合常規特征提取分支的常規信息和邊緣分支的邊緣信息,為邊緣分支采用單獨的二元交叉熵損失函數,并與常規特征提取分支中的損失函數來共同優化模型的分割效果。試驗表明:采用不同的特征提取主干網絡時語義分割效果的客觀和主觀結果都較現有算法有所提升, 表明改進對清晰化處理之后的低能見度圖像語義分割效果起到了良好的作用。為進一步提高小物體特征的提取,獲取更高的小物體圖像分割精度提供方法支撐。