張 漢,張德祥,陳 鵬,章 軍,王 兵
1.安徽大學 電氣工程與自動化學院,合肥230601
2.安徽大學 農業生態大數據分析與應用技術國家地方聯合工程研究中心,互聯網學院,合肥230601
3.安徽工業大學 電氣與信息工程學院,安徽 馬鞍山201804
語義分割技術已經成為計算機視覺領域的重要研究方向,其目標是對圖像中的每個像素進行分類,將圖像分割成具有相同語義的區域塊,以進行圖像的分析與理解。語義分割的重要性在于越來越多的應用需要利用圖像進行理解推斷,包括人機交互、自動駕駛、醫學影像、計算攝影、虛擬現實、缺陷檢測等領域[1]。對于傳統的分割方法,文獻[2]依據圖像的顏色或灰度值不同設置中間閾值進行分割,文獻[3]利用區域間特征的不連續性將檢測的邊緣點連接成閉合曲線實現區域分割,文獻[4-5]分別通過定義生長準則和以數學形態學為基礎進行分割,CRF-RNN[6]、DPN[7]則分別引入條件隨機場、馬爾可夫隨機場模型改善分割效果。這些傳統的分割方法沒有深層次的網絡結構,因而計算復雜度不高,對實際的設備需求也較低,但由于此類方法多是根據圖像的低級視覺特征而沒有利用中高級語義信息以及像素間的相關性,在遇到相對復雜的實際場景往往得不到令人滿意的分割效果。
隨著深度學習的快速發展與廣泛應用,基于卷積神經網絡的分割算法在分割技術上取得了突破性進步。文獻[8]將任意尺寸的圖像作為輸入、標簽作為監督信息,設計出一種端到端的全卷積網絡。自此,語義分割進入了一個全新的發展階段,同時也奠定了使用深度網絡解決語義分割的基本框架。全卷積網絡通過重復的卷積池化組合提取特征,再結合跳級結構上采樣至輸入尺寸進行像素分類。這種模型在許多簡單場景理解都取得了較好應用,但隨著場景的復雜化、多樣化以及對精度的高要求,這種簡單的模型因為下采樣造成局部信息的丟失以及不能從全局視野下利用像素的相關性問題而不能滿足實際需求,因而一系列改進算法應運而生。
為了減少局部信息的丟失,文獻[9-10]設置多尺寸輸入,融合不同尺寸的輸入信息,文獻[11-12]擴大卷積核尺寸,減少下采樣層數,文獻[13-17]設置不同空洞率的空洞卷積和不同尺寸的池化核進行多尺度特征融合,文獻[18-21]在上采樣時逐層融合低水平特征。盡管這些工作有助于減少局部信息的丟失,改善分割效果,但作為一種局部手段的卷積操作,仍難以獲得全局信息以及在全局視野下利用像素間的相關性對目標進行分析判斷,因此這些方法在一些特定場景中對于分割的改善是有局限的。
為了捕獲全局信息以及從全局視野下利用像素間的相關性,文獻[22]通過學習到的注意力圖自適應聚合遠距離上下文信息,文獻[23-24]采用一種非局部操作捕獲特征圖上任意位置特征間相關性,文獻[25]搭建了一個有向無環圖的遞歸神經網絡捕獲豐富的上下文依賴關系,文獻[26-28]將注意力機制應用在通道、位置、類別不同角度以捕獲具有依賴的全局信息。這些策略也都相應地促進了分割效果,但全局信息傾向于從全局視野下對目標進行分類而缺乏必要的空間信息以致上采樣時不能準確恢復像素位置。因此,融合必要的局部信息更有利于優化分割結果。
由此,提出了一種融合了局部注意力和全局注意力的網絡模型,該模型在捕獲豐富的局部信息同時從全局視野下對分割目標進行判斷。局部注意力模塊分編碼和解碼兩個階段,編碼階段通過設置不同尺寸的卷積核依次下采樣特征圖以獲得更大的感受野,解碼階段則在上采樣時融合相同尺寸的下采樣特征圖以減小下采樣造成的局部信息的丟失,同時實現多尺寸的局部信息融合。全局注意力模塊從全局視野下學習輸入特征圖的全局描述,輸出特征圖中每個位置的特征是輸入特征圖中所有位置特征的加權和且權重由輸入特征圖中特征間相關性決定,越相似的特征相關性則越大。兩個注意力模塊的融合有效改善了分割效果。此外,由于語義分割是一種像素級分類,下采樣的特征圖需要上采樣為輸入尺寸,而雙線性插值法作為最常用的上采樣方法是在像素四周進行水平和垂直方向的兩次插值以確定目標像素,其沒有考慮到標簽像素間的相關性,因而可能會得到次優分割結果。采用一種數據相關的上采樣方法[29]代替常規的雙線性插值法并且有效改善了分割結果。在樣本分布不均衡時,樣本量少的類別特征過少,網絡很難從中提取規律并且容易過度依賴有限的數據樣本而產生過擬合問題。因此,針對數據集的不平衡問題,采用Dice Loss[30]損失函數并在類別損失前加入權重系數有效緩解了由于數據不平衡引起的分割誤差,進一步改善了分割效果。
(1)語義分割
語義分割是計算機視覺領域研究的基本話題。FCN[8]率先采用全卷積網絡實現圖像的像素級分類。隨后,基于FCN的改進算法在語義分割領域取得了重大突破。為了減少局部信息的丟失,改善分割效果,U-Net[18]、SegNet[20]使用編碼-解碼結構將低水平特征與高水平特征進行融合,RefineNet[9]采用RefineNet塊的同時融合不同尺寸的輸入特征,DPC[31]使用結構搜素技術創建多尺寸結構,DeepLab V3[14]、DeepLab V3+[15]使用不同空洞率的空洞卷積并行多尺度特征提取,文獻[32]、PSPNet[16]采用不同尺寸的卷積核、池化核并行實現多尺寸目標學習。
(2)自注意力機制
注意力機制是生物視覺行為的仿生,即模擬生物在觀察目標時將注意力集中在關鍵特征而忽略其他不相關信息。自注意力機制是注意力機制的改進,其減少對外部信息的依賴,強調與自身特征的相關性。因自注意機制可以捕獲長距離依賴關系,在自然語言處理、圖像、視頻等領域都受到了廣泛關注。文獻[33]首次將注意力機制用于機器翻譯中并取得了顯著效果,EncNet[34]引入上下文編碼模塊捕獲全局上下文信息和突出與場景相關聯的類別信息,SENet[26]采用全局平局池化模擬全局特征并將其作為通道權重學習通道相關性,OCNet[35]提出目標文本模塊并嵌入到金字塔和空洞空間金字塔結構中,DANet[27]將注意力機制同時應用在通道和位置上并將各自提取特征進行融合,CCNet[36]采用一種串聯的十字交叉的注意力網絡捕獲全局信息,HMANet[28]進一步擴大注意力應用范圍,除通道、位置注意力外,文章引入類別注意力重新校準類別信息。
鑒于以上語義分割方法和自注意力機制的成功使用,從減少局部信息的丟失以及捕獲具有長范圍依賴的全局信息出發,提出了一種局部和全局注意力融合的卷積神經網絡以改善分割效果。局部注意力通過編碼-解碼結構的設置將高水平特征與低水平特征進行多尺度融合,全局注意力學習特征間相關性并將其作為權重捕獲具有全局依賴的全局信息。此外,采用一種數據相關的上采樣方法代替常規的雙線性插值法并針對數據集的不平衡問題,采用Dice Loss 損失函數并在類別損失前加入權重系數以緩解由于數據不平衡引起的分割誤差。
模型整體結構如圖1所示,首先,采用修改的Resnet-50作為主干網絡學習輸入圖像特征。隨后,局部和全局注意力兩個并行模塊分別對主干網絡輸出的特征進一步提取并將各自提取的特征進行像素級融合,為減小下采樣丟失的有效局部信息,采用自適應最大池化下采樣高分辨特征圖與注意力模塊融合的特征圖進行特征聚合。最后采用數據相關的上采樣策略恢復聚合的特征圖至輸入尺寸,實現像素分類。

圖1 模型整體結構Fig.1 Overall structure of model
計算特征圖上兩個位置特征間相關性需統計特征圖上任意特征與其所在特征圖上所有特征的相關性,假設特征圖通道數、寬、高分別為C、W、H,則得到注意力圖需要的計算量為C×H×W×H×W。因此,主干網絡的輸出特征圖不宜過大以減輕計算注意力圖時巨大的計算開銷。另一方面,圖2給出了輸出相關性對應不同感受野的輸入相關性。

圖2 輸出相關性對應不同感受野的輸入相關性Fig.2 Output correlation corresponds to input correlation of different receptive fields
由圖2可知,主干網絡輸出特征圖中每個特征對應某一范圍的輸入圖像,計算公式如式(1):

lk-1是第k-1 層的感受野大小,fk-1 是當前層的卷積核大小,si是第i層的步長。
由等式(1)可知,隨著網絡的加深,感受野不斷加大,然而過大的感受野則不能準確反映輸入圖像中區域間的相關性(藍色:相同種類的區域很少,相關性低,紅色:相同種類區域增大,相關性增大)。鑒于此,主干網絡的輸出特征圖不宜過小以減少過大的感受野不能準確反映區域間的相關性。
綜上所述,采用Resnet-50 的前三個分塊作為主干網絡并將第三個分塊的步長設置為1 以權衡輸出特征圖尺寸和局部感受野問題,這樣得到的特征圖尺寸是輸入圖像的1/8,輸入圖像尺寸歸一化為224×224像素,因此,經主干網絡的特征提取輸出特征圖的尺寸為28×28像素。
由2.2 節主干網絡模塊討論知,在統計特征間的相關性時需減少感受野以更準確反映輸入圖像區域間的相關性。然而由數據集測試結果可視化可見,輸入圖像中目標尺寸不一,為實現多尺寸目標分割,則需進行不同感受野的特征融合。隨著網絡的加深,感受野不斷增大,由于下采樣層的增多則會造成更多局部信息的丟失。因此,為實現多尺度特征融合時減少局部信息的丟失,鑒于U-Net、SegNet等編碼-結構的成功應用,提出了如圖3所示的局部注意力網絡。

圖3 局部注意力模塊Fig.3 Module of local attention
局部注意力網絡是一種U型結構,分編碼和解碼兩個階段。輸入圖像經主干網絡的特征提取后,輸出特征圖的通道數為1 024,從圖3 知,解碼階段特征圖上采樣時與相同尺寸的下采樣特征圖進行像素級融合,融合的特征圖需要有相同的通道數,如式(2):

其中,Kh、Kw表示卷積核高寬,Cin、Cout表示輸入、輸出通道數,Hout、Wout表示輸出特征圖高寬。
由式(2)可知,卷積層的計算量與卷積核的寬高以及輸出通道數成正比。因此,為了減少計算量,首先采用1×1的卷積層減少通道數為512。為實現多尺寸特征提取,鑒于最大池化下采樣操作只保留池化核范圍內很少的一部分信息而造成巨大的局部信息丟失以及主干網絡輸出特征圖的尺寸為28×28像素,在編碼階段采用具有3 級的金字塔結構并用7×7、5×5、3×3 的卷積核依次下采樣得到14×14、7×7、4×4的局部特征圖,為了增大局部感受野,在下采樣之后設置相同尺寸的卷積核進一步特征提取。編碼階段可表示為:

因為下采樣時感受野不同,解碼階段在上采樣時與相同尺寸的編碼特征圖進行融合從而實現了多尺寸的局部特征融合。解碼階段可以表示為:

這種局部注意力模塊通過編碼-解碼結構的設計,在下采樣時通過卷積操作增大感受野,并在上采樣時逐級融合下采樣特征,低水平的局部信息對高水平的特征進行了補充,不同感受野的局部信息融合時減少了局部信息的丟失。由后期實驗表明,局部注意力模塊有效改善了分割效果。同時,特征圖的分辨率和通道數較小,因此不會帶來計算上的壓力。
隨著網絡的加深,感受野逐漸增大。但卷積是一種局部操作,仍難以得到全局信息,全局平局池化將所有特征相加進行融合,這種簡單的融合方法沒有考慮到像素間的依賴性,因而對于分割效果的提升是有限的。隨著自注意力機制的廣泛應用,捕獲長范圍具有依賴性特征越來越成為全局特征提取的重要方法。由文獻[23]知,在計算機視覺任務中,全局注意力機制操作的定義為:

C(x)是歸一化系數,i、j分別表示輸入特征圖x中的某個空間位置,f是一個計算特征圖中兩個特征的相關性函數,g(xj)表示j位置特征的映射。由公式(5),設計了如圖4所示的全局注意力模塊。

圖4 全局注意力模塊Fig.4 Module of global attention
全局注意力模塊可分3個階段。首先,采用特征值相乘法模擬特征間相關性,即:

對于通道數為C,高寬分別為H、W的特征圖需要的計算量為C×H×W×H×W。因此,在計算特征間相關性時為了減輕計算壓力除減少特征圖尺寸外,還可以相應程度地減少特征圖通道數。如圖4所示,經殘差網絡的特征提取,首先對輸入特征圖x∈RH×W×C引入1×1 卷積并隨之轉換為多通道向量,N=H×W,隨后對轉置后的A和B執行矩陣乘法,最后通過Softmax歸一化得到注意力圖D∈RN×N,即:

在第二階段中,通過矩陣乘法將第一階段得到的特征間相關性作為權重加在相應的特征前。首先采用1×1 卷積用以減少通道數并隨之轉換為多通道向量C∈,隨后對注意力圖D進行轉置并與多通道向量C執行矩陣乘法并轉換為H×W×C2的特征圖。最后在第三階段中通過1×1 卷積恢復特征圖尺寸并與輸入特征圖x執行像素級融合,即:

α是一個初始化為0的可學習因子并在學習過程中得到更大的權重[37]。由等式(8)知,經全局注意力后,輸出特征圖尺寸和輸入特征圖相同,并且輸出特征圖中的每一個像素是輸入特征圖上的相應像素與其所在特征圖上所有像素的加權和,且權重由兩個像素的相關性決定,由此捕獲了具有像素依賴關系的全局信息。
雙線性插值是在像素四周進行水平和垂直方向的兩次插值以確定目標像素,其沒有考慮到標簽像素間的相關性,因而可能會得到次優分類結果。一個重要發現是標簽中的像素是非獨立分布的,像素間包含著結構信息。因此可以將標簽近乎無損壓縮到后再解壓至L1,然后將解壓過程中學習的重建矩陣W用于上采樣,L2與最終聚合特征圖維度相同。
可將標簽L1壓縮到L2可分為4個階段。首先將L1分塊成H2×W2個r×r子窗口,,然后將每個子窗口轉化為向量,{0,1}表示標簽經過one-hot編碼處理,N1=r×r×C1,接著將向量V壓縮成,最后水平、垂直壓縮其他子窗口。對于第三階段,采用線性壓縮方法:


圖5 r=2 時標簽L1 壓縮至特征圖尺寸L2 過程Fig.5 Process of groundtruth L1 compressed to resulting feature map L2 which r=2
首先選擇Dice Loss作為損失函數是因為分割的真實目標是最大化預測結果與標簽的交并比,而在給定優化指標本身與代理損失函數選擇時,最優選擇是指標本身[38]。由文獻[30]知Dice Loss損失函數形式如等式(10):

L是類別總數,N為輸入圖像分辨率,pln表示像素點屬于類別l的概率,rln表示像素點是l類的類別標簽,平滑因子λ用于防止計算時分母為0。
在樣本分布不均衡時,樣本量少的類別特征過少,網絡很難從中提取規律并且容易過度依賴有限的數據而產生過擬合問題。由文獻[17,39-40]知,樣本量多的類別特征容易學習是因為大量的樣本降低模型的整體損失,模型在訓練時更偏向于容易樣本的特征學習而對于樣本量少的困難樣本的關注度降低。網絡的輸出是與類別數相同的多通道矩陣,矩陣中的值經Softmax 歸一化后表示此像素屬于各類別的概率且概率值相加為1。對于簡單樣本,概率值p值更接近于1,困難樣本的概率值更接近于0,為了增大困難樣本在損失中的比重,文獻[39]在損失前加入權重系數(1-p)γ(γ是一個取值0-1的超參數),可知對于簡單樣本,輸出概率值p越大,(1-p)γ則會越小。相反,困難樣本的輸出概率p越小,(1-p)γ則越大,這樣在訓練時,困難的樣本的損失被放大,模型會更加關注困難樣本。同樣,文獻[40]根據訓練時的不同階段,采用漸增方式對超參數γ進行調節。受之啟發,為了平衡各類別樣本損失,本文希望所有類別的樣本在訓練中對于分類器同等重要,即希望加大少數樣本損失權重。與之不同的是,沒有從輸出概率角度增大困難樣本的損失而是根據各類樣本的數量重新縮放分類損失大小。如等式(11):

其中

在類別損失前引入權重系數,對于二分類分割,損失可表示為:

w0、w1表示背景、前景類別權重,p0n、p1n表示像素分類為背景、前景的概率,r0n、r1n表示背景與前景標簽。因為圖像標簽經one-hot 編碼,因此r0n=0、r1n=1 且等式(13)可表示為:

由等式(14)知GDLb即為前景損失與總損失之比,由等式(12)知權重系數與此類別像素個數的平方成反比。樣本越不平衡,越小,對背景的調節將會越大。這樣,前景損失在總損失的比重增大,在訓練時模型將會提高對樣本量少的困難樣本的關注度。由后期實驗可看出此方法有效緩解了因為樣本不平衡原因導致像素多的樣本損失占比過大而傾向此類別學習的問題。
為評估提出模型的可行性及泛化能力,在藥丸污點、藥丸缺損和走廊三個數據集上進行了綜合性實驗,實驗結果以及和其他模型的比較表明,提出的模型具備很好的實施性同時兼有很強的泛化能力。接下來將介紹數據集和實施細節,然后詳細介紹在污點數據集上的消融和對比實驗,最后呈現在缺損和走廊數據集的實驗結果以及三個數據集預測結果的可視化。
3.1.1 數據集
(1)藥丸污點和藥丸缺損數據集
污點和缺損數據集均來自HALCON 軟件,兩種數據集具有相似的特點,因此將其放在一起說明。因為同一張圖像中最多包含兩類,即完好和污點、完好和缺損、完好,所以兩個數據集都是二分類分割。污點數據集有968張圖片,缺損數據集有946張,兩種數據集均有632×320、300×300、429×320 像素三種尺寸且都有高質量的像素標簽。
(2)走廊數據集
走廊數據集來自CMU實驗室,包含967張圖像,尺寸為240×320 像素,實驗時分割出走廊區域,因此也是二分類問題。
3.1.2 實施細節
模型基于開源框架PyTorch 實現并采用GeForce GTX 1080 Ti GPU 加速訓練。對于三種數據集,隨機劃分訓練集為75%,測試集為25%。通過實驗精調,污點數據集初始學習率設置為0.3,缺損和走廊數據集為0.5,污點數據集訓練80 個周期且在區間[20,40,50,70]衰減,減因子為0.5,缺損和走廊數據集訓練30個周期且每隔10個周期衰減一半。污點和缺損批量設為8,走廊為16,動量和衰減因子分別設為0.95 和0.000 1。三種數據集均采用隨機梯度下降算法作為優化器訓練網絡。
3.2.1 污點數據集消融實驗
將修改的ResNet-50作為主干網絡并通過局部注意力和全局注意力兩個并行模塊強化特征學習以改善分割效果。為了驗證主干網絡和兩個注意力模塊的有效性,在污點數據集上進行了全面的消融及對比實驗。實驗時,以雙線性插值上采樣方法恢復特征圖至輸入尺寸、Dice Loss作為損失函數、平均交并比(MIoU)作為評價指標。
如表1 所示,從實驗1、2、3 可看出局部注意力和全局注意力模塊在主干網絡基礎上分別提升了6.62 和6.73個百分點的平均交并比結果,當將兩個注意力模塊融合時得到了94.02%的良好結果,由此可得知在網絡中融入局部注意力和全局注意力模塊對藥丸污點分割的有效性,而這種有效性則歸功于局部注意力模塊通過不同尺寸的卷積核下采樣局部特征圖,并在上采樣時逐層融合不同感受野的下采樣特征圖捕獲的豐富局部信息以及全局注意力模塊從全局視野下利用像素間的相關性捕獲的全局信息。為了驗證分級的局部注意力對特征提取的必要性,實驗5 中,采用和局部注意力相同的7×7、5×5、3×3的卷積核并行多尺度提取特征,由實驗結果可見,采用這種方法也能相應程度改善分割效果,但相比于局部注意力有著1.24 個百分點的平均交并比差距,造成這樣的差距可能是因為5×5、3×3卷積支路在增大感受野時需要增大步幅而有大量的局部性信息的丟失。實驗6 中因為全局平均池化是一種簡單的特征融合,其沒有考慮到像素間的相關性因而實驗效果不及全局注意力模塊。此外,實驗7中采用標準的Resnet-50 作為主干網絡,然而相比于修改的Resnet-50 有著0.58 個百分點的差距,標準的Resnet-50 增加了第四個分塊,感受野相應增大,增大的感受野不能很好反映輸入圖像區域間的相關性,標準的Resnet-50 相比于修改的主干網絡增加了兩個下采樣層也會造成局部信息的丟失,此外,統計了使用兩個主干網絡在參數量和計算量的差距,修改的Resnet-50 的參數量、計算量分別為8.97×107、2.997×1010,標準的Resnet-50 因為增加了第四個分塊以及上采樣層參數量和計算量分別增加了3.723×107、2.92×109。實驗8、9 中將主干網絡替換為VGG-16和Xception-65,由實驗結果可推測使用VGG-16實驗效果不佳是因為多層的下采樣造成局部信息的不斷丟失以及重復的卷積池化操作對特征提取的局限性,而Xception-65則可能因為網絡過于復雜以及連續的空洞卷積造成的局部信息的丟失。

表1 污點數據集消融實驗Table 1 Ablation experiments of contamination dataset
3.2.2 雙線性插值和數據相關上采樣比較
雙線性插值上采樣方法是在待插入像素點四周的四個已知像素點進行水平和垂直方向的兩次線性插值,這種過于簡單的上采樣方法在像素分類時可能會得到次優結果。采用一種數據相關的上采樣方法代替此方法,為了證明數據相關上采樣方法能夠很好的恢復原始信息,在實驗4 基礎上進一步實驗。實驗結果如表2 所示,當采用數據相關上采樣方法時,實驗得到了94.68%的平均交并比結果,相較于雙線性插值法有了0.66個百分點的提升。

表2 上采樣方法比較Table 2 Comparison of upsampling methods
3.2.3 損失函數比較
由污點測試結果可視化可見,數據集存在樣本不平衡問題,訓練時將會加大模型對于樣本少的特征的學習難度。在Dice Loss類別損失前加入類別權重系數(GDL)使得網絡的學習更專注于樣本量少的類別。為了說明GDL能夠緩解由于樣本不平衡造成樣本量少的類別分割效果不佳問題,對每類的交并比進行統計。在數據相關上采樣實驗的基礎上實驗結果如表3,可看出GDL損失函數相較于Dice Loss損失函數有了1.71個百分點的提高且多因為污點類別的交并比結果的提升。由此說明了GDL 損失函數可以相應程度解決樣本不平衡問題,改善分割結果。

表3 損失函數比較Table 3 Comparison of loss functions
3.2.4 與現有流行方法比較
首先簡要介紹HALCON 軟件。HALCON 是一個廣泛應用于機器視覺領域的圖像處理庫,類似于計算機視覺庫OpenCV,HALCON內部包含豐富的圖像處理算子。為了縮短開發周期,HALCON 自帶開發環境HDevelop以供開發者快速進行程序設計并可將程序導出為C、C++、C#等語言以進行更大程序的設計。隨著深度學習的快速發展,最近版本的HALCON 也逐漸支持深度學習并不斷進行功能完善,在接下來的HALCON 實驗就是在此基礎上實現的。
實驗時以語義分割最常用的像素準確率(PA)和平均交并比(MIoU)作為分割評價指標。幾種常用分割方法的實驗結果如表4 所示,HALCON 實驗時保留了對污點數據集分割的原有算法,并精調實驗超參數以達到最優分割效果。從表4實驗1可見,HALCON在此數據集上取得了93.10%的平均交并比結果,此結果優于FCN-16s、DeepLab V3+和DANet三種常用模型。然而,由實驗結果1、5 可知,提出的模型平均交并比結果比HALCON還要高出3.29個百分點。由此說明提出模型在污點數據集上能夠得到很好的分割效果。

表4 與現有流行方法比較Table 4 Comparison with existing popular methods
為了進一步評估提出模型的有效性,在缺損數據上也進行了實驗。同樣,實驗以像素準確率(PA)和平均交并比(MIoU)作為評價指標評估分割效果。實驗結果如表5所示,HALCON實驗時同樣采用默認的分割算法并精調實驗超參數,由實驗1、5 可見,提出模型在像素準確率、特別是平均交并比都取得了很大的提升。與此同時,利用幾個現有流行模型進行了實驗,由實驗2、3、4、5表明,提出的模型在藥丸缺損數據集上有著先進的分割能力。

表5 缺損數據集實驗結果Table 5 Experimental results of crack dataset
為了觀察提出的模型是否具備很好的泛化能力,在走廊數據集上進行了對比實驗。實驗結果如表6所示,文獻[41]運用簡單的AlexNet作為主干網絡然后上采樣融合低水平特征進行分割,因而實驗效果不佳。所以,在這里本文模型和文獻[41]的實驗結果作定性比較而不作定量比較。然而從實驗5可以看到,提出的模型得到了98.53%的像素準確率和96.28%的平均交并比結果,這兩個結果特別是平均交并比顯著高于其他幾個模型。因此可以說明提出的模型不僅可以有效改善分割效果同時具備很好的泛化能力。

表6 走廊數據集實驗結果Table 6 Experimental results of corridor dataset
保存訓練時的最優模型進行實際部署,實際預測結果如圖6 所示(第一行:待測圖像,第二行:標簽,第三行:預測結果),由圖6 污點數據集可視化結果可以看到,提出的網絡不僅能在邊緣較為平滑(第三列)和變化突兀的目標上(第一列)取得非常好的預測結果,對于樣本不平衡且非連通的目標上(第二列)也能得到很好的預測。因此,可以推斷網絡對污點特征具有很強的學習能力。同樣在缺損數據集可視化中可以發現網絡也得到了很好的分割結果。在走廊數據集的可視化中可以看到預測結果棱角分明,很好地識別出邊角區域。在與標簽的對比中發現,網絡準確分割出走廊區域,同時也驗證了模型具有很強的泛化能力。此外,如圖7污點數據集訓練、測試時損失及平均交并比變化曲線可見訓練過程處于平穩狀態,沒有出現過大和反復的震蕩現象,且訓練10個周期左右,網絡快速收斂,實驗時繼續訓練至80周期以盡可能得到最優模型。

圖6 污點、缺損、走廊數據集預測結果可視化Fig.6 Visualization of prediction results of contamination,crack and corridor datasets

圖7 損失及平均交并比變化曲線Fig.7 Changing curves of loss and MIoU
呈現了一種新的語義分割方法:以修改的ResNet-50作為主干網絡提取特征后輸入給局部注意力和全局注意力兩個并行模塊,局部注意力模塊采用編碼-解碼結構多尺度融合局部信息而全局注意力模塊從全局視野下利用像素間的相關性捕獲具有依賴的全局信息。通過兩個注意力模塊的融合有效的進行特征的學習;此外,采用一種數據相關的上采樣方法恢復特征圖至輸入尺寸;針對數據集不平衡問題在Dice Loss 類別損失前加入權重系數。從藥丸污點、藥丸缺損以及走廊數據集的實驗結果中體現了提出的模型不僅具有很好的實施性,同時具備很強的泛化能力。