楊 貞,彭小寶,朱強強,殷志堅
(江西科技師范大學通信與電子學院,南昌 330013)
圖像的語義分割在計算機視覺領域是一項具有挑戰性的工作,與基于像素塊分類的目標檢測任務不同,它要求對圖像中每個像素點進行精確分類,因此語義分割更復雜,對設備的性能要求更高。目前,圖像的語義分割廣泛應用于自動駕駛[1]、衛星圖像分析[2]、醫學圖像分割[3]、物體缺陷檢測[4]和精準農業[5]。
當今,圖像分割技術由傳統圖像分割和基于深度卷積神經網絡的圖像分割組成。傳統分割方法有邊緣與閾值法[6]、圖割法[7]、小波變換法[8]和主成分分析法[9]等;基于深度卷積神經網絡的圖像分割算法主要有全卷積網絡(Fully Convolutional Network,FCN)[10]、U-net[11]、SegNet[12]、金字塔場景解析網絡(Pyramid Scene Parsing Network,PSPNet)[13]及Deeplab V1&V2&V3&V3 Plus[14-17]。
Long 等[10]提出了全卷積網絡(FCN)用于圖像分割,其核心思想是去掉網絡結構的全連接層(Fully Connected layers,FC),通過最后卷積層的特征圖來完成預測,從而使得全卷積網絡可預測圖像中每個像素點的類別。除此之外,在圖像語義分割任務中,為了獲取圖像的高語義信息并將特征圖像恢復至原始圖像尺寸大小,需要經過下采樣和上采樣兩個步驟。圖像分割通過下采樣步驟獲取特征圖易造成圖像細節信息丟失,再通過上采樣重構圖像內容會造成像素點之間相關性較弱的問題。針對上述問題,研究人員提出了相應的解決方案和改進方法:上下文和空間信息、改進的上采樣操作和注意力機制。然而要生成高質量的特征圖,上下文信息和空間信息非常重要:1)圖像的上下文信息可以增強對像素屬性關聯性的理解;2)圖像的空間信息可以增強對圖像或者特征圖不同通道間相互關系的理解,還可以通過像素間的空間信息去計算像素的關聯性。因此,為了獲取更為豐富的上下文信息,通常使用改變感受野和多尺度特征圖融合的方法。Deeplab V2&V3[15-16]、密集上 采樣卷 積(Dense Upsampling Convolution,DUC)[18]和判別特征網絡(Discriminative Feature Network,DFN)[19]通過使用不同空洞率的卷積來獲取不同感受野的上下文信息,而PSPNet[13]使用金字塔池化模型獲得多個尺度的特征圖,以此來獲得多尺度的上下文信息。此外,為了得到豐富的圖像空間信息,通常使用特征融合的方法來進一步獲取圖像的多尺度信息,如Deeplab V2&V3&V3 Plus[15-17]均使用空洞空間卷積池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)的方法去采樣不同層次特征圖的內容信息,并將其聚合到一起。雙重注意力網絡(Dual Attention Network,DANet)[20]和交叉注意力機制語義分割(Criss-Cross attention for semantic segmentation,CCNet)[21]則基于充分利用自身相似性的方法去融合低層次和高層次特征圖的空間信息。
在圖像的語義分割任務中,通常需要下采樣獲取圖像的高層結構信息,然而,對圖像進行下采樣的操作將會使得輸出的特征圖尺寸小于原圖像,因此,為了將特征圖還原至輸入圖像大小,需要進行多次上采樣操作。因此,上采樣操作是基于卷積網絡圖像分割算法的重要組成部分,其中常采用的上采樣操作方法有雙線性插值法、反卷積法和解池化法。在全卷積網絡圖像分割算法中,PSPNet[13]首先使用金字塔池化策略獲得多層次特征圖,再利用雙線性插值法進行上采樣,最后得到一致尺寸的特征圖以完成融合;與PSPNet 模型不同,上下文先驗知識的場景分割(Context Prior for scene segmentation,CPNet)[22]對網絡輸出的最后一層特征圖進行8 倍雙線性插值完成上采樣以計算分割損失,而Deeplab V3[16]同樣也進行了8 倍上采樣操作將特征圖恢復至原始圖像大小。與上述方法不同,FCN[10]使用反卷積操作,進行8倍、16 倍或32 倍的跳躍上采樣操作以保證輸出特征圖和原始圖像尺寸一致;反卷積單階段檢測器(Deconvolutional Single Shot Detector,DSSD)[23]則使用反卷積操作融合高層次特征和低層次特征,以獲取圖像的細節信息;堆疊反卷積網絡(Stacked Deconvolutional Network,SDN)[24]通過堆疊反卷積層來豐富上下文信息完成上采樣操作。與雙線性插值和反卷積算法不同,SegNet[12]通過最大池化索引的解池化法將特征圖進行上采樣恢復。此外,反卷積網絡(Deconvolution Network,DeconvNet)[25]使用反池化和反卷積相結合的方法使得稀疏的特征圖逐步變得稠密,最終和原始圖像尺寸保持一 致。數據依 賴上采 樣(Data-dependent Upsampling,DUpsampling)[26]為了使得特征圖在上采樣恢復過程中像素點間有一個較好的依賴關系,提出了數據依賴型上采樣的方法:首先利用相關矩陣對標簽圖像進行降維,使得其分辨率與特征圖分辨率一致,再利用相關矩陣對特征圖進行線性映射,最后恢復至原始圖像大小。內容感知重組特性(Content-Aware ReAssembly of FEatures,CARAFE)[27]則提出了先將特征圖增加A2通道數,之后將其對應展開并與需要上采樣的特征圖對應相乘,最后再將特征圖恢復至原圖像的分辨率。
注意力機制模塊已經被廣泛應用于圖像分類、目標檢測和跟蹤任務中,均取得了較好的效果。視覺注意力循環網絡模型(Recurrent Models of Visual Attention)[28]和殘差注意力網絡(Residual Attention Network for Image Classification)[29]均利用注意力機制生成高層次的特征圖來指導網絡的前向傳播。擠壓和 激勵網 絡(Squeeze-and-Excitation Networks,SENet)[30]將特征圖通道壓縮成一點以得到通道間的類別屬性,最后通過門機制將通道關系融合到原始特征圖以獲得最終特征圖。Encnet[31]和DFN[19]則使用通道注意力機制的方式來獲取圖像的全局上下文信息,以構建各類別之間的依賴關系。與此同時,自我注意力機制模型也廣泛應用在圖像的語義分割領域,其中文獻[32]中最早提出了自我注意力機制,并利用自我注意力機制來獲取輸入信息的全局依賴關系,最終將其應用到了機器翻譯領域。此外,自我注意力生成對抗網絡(Self-Attention Generative Adversarial Networks,SAGAN)[33]引入自我注意力機制模塊去學習一個更好的圖像生成器,以生成效果更佳的圖像。DANet[20]則采用自我注意機制和通道注意力機制分別在空間維度和通道維度上建立一個長遠的上下文依賴關系。
受以上研究方法的啟發,針對目前Deeplab V3 Plus 語義分割框架易造成細節信息或小目標丟失的問題。本文利用殘差網絡和通道注意力策略,將自適應注意力機制模塊嵌入到主干網絡中。此模塊目的是將單元輸入特征圖的細節信息補充到輸出特征圖中,以此延緩細節信息丟失的趨勢。本文提出的方法由以下四部分組成:1)使用通道壓縮的方法(即全局平均池化)將單元輸入特征圖的每個通道壓縮成一個點;2)將壓縮點進行雙線性插值上采樣,恢復至和單元輸出特征圖分辨率一致;3)引入一個權重值α,將其與雙線性插值恢復的圖像相乘,以此達到約束注意力機制模塊信息量的目的;4)將注意力機制模塊的特征圖與單元輸出特征圖在通道上進行相加(即融合后的特征圖通道數量保持不變)。
Deeplab V3 Plus 是基于空洞分離卷積的編解碼語義分割網絡,其結構可分為下采樣過程中的編碼網絡和上采樣過程中的解碼網絡。其中,在編碼網絡中使用了空洞分離卷積,此操作既保留了輸入特征圖的空間信息又增大了卷積核的感受野,并且還極大減少了網絡的參數量,如圖1 所示。
圖1 嵌入自適應注意力機制模塊的Deeplab V3 Plus網絡結構示意圖Fig.1 Structure schematic diagram of Deeplab V3 Plus network embedded with adaptive attention mechanism module
在圖像語義分割中,下采樣是提取圖像高級語義信息的過程,在這個過程中需要將稠密的原始圖像或者特征圖進行稀疏采樣,得到一個分辨率更低的特征圖(即編碼過程),而下采樣通常在主干網絡中完成。目前主流的主干網絡有VGGNet、GoogLeNet、ResNet、Xception[34]等,而本文使用的主干網絡是改進的Xception 網絡。
1.1.1 改進的Xception-65主干網絡
考慮設備性能,本文使用改進的Xception-65 主干網絡(圖1),其內部的卷積核采用的是深度可分離卷積,并且卷積核的空洞率可以自行設置。與ResNet 主干網絡相比,改進的Xception-65 網絡參數量更少。如圖2 所示:(a)展示了普通卷積核與特征圖進行卷積的過程;(b)展示了帶空洞的深度可分離卷積核與特征圖進行卷積的過程。假設普通卷積核與帶空洞的深度可分離卷積核的尺寸大小都是K×K,輸入特征圖的通道數為C1,輸出特征圖的通道數為C2,普通卷積核與特征圖卷積后產生的參數量為W1,如式(1)所示。而帶空洞的深度可分離卷積核與特征圖卷積后產生的參數量為W2,如式(2)所示:
圖2 標準卷積與帶空洞的深度可分離卷積Fig.2 Standard convolution and atrous depthwise separable convolution
原始圖像在輸入改進的Xception 主干網絡之前會先進行一個尺度變換操作,將原始圖像通過裁剪和填補的方式全部變換為512× 512 的分辨率。變換后的原始圖像進入改進的Xception-65 網絡后,通過帶空洞的深度可分離卷積進行4次下采樣操作,之后將輸出含有高級語義信息的特征圖,其尺寸將變為原圖的1/8。
1.1.2 ASPP特征融合
原始圖像在通過改進的Xception-65 主干網絡后,得到一個32× 32 高級語義特征圖。為了獲取不同尺度下的語義信息,本文使用空洞空間卷積池化金字塔(ASPP)(圖1),并分別采用尺寸為1× 1、空洞率為0,尺寸為3× 3、空洞率為6,尺寸為3× 3、空洞率為12,尺寸為3× 3、空洞率為18 的卷積核對32× 32 高級語義特征圖進行卷積,以得到4 個尺寸均為32× 32 的次級特征圖。為了更進一步獲得圖像的全局語義信息,在ASPP 特征融合部分還采取了全局平均池化策略,先對主干網絡輸出的高級語義特征圖進行平均池化得到1×1 的特征圖,再對1× 1 的特征圖進行雙線性插值上采樣恢復其尺寸,并得到一個32× 32 的次級特征圖,最終將5 個32×32 的次級特征圖在通道上進行連接融合。
原始圖像在經過網絡下采樣編碼操作后,其輸出特征圖為32× 32。然而,與目標檢測任務不同,語義分割算法不能直接對下采樣編碼結構輸出的32× 32 的特征圖進行分類預測,而是需要將下采樣獲得的特征圖進行上采樣恢復,使得其與原始圖像的分辨率保持一致。
由于上采樣解碼操作融合了多尺度特征圖的信息,因此,本文首先使用雙線性插值方法對得到的特征圖(ASPP 融合的特征圖)進行四倍上采樣,以獲得128× 128 的特征圖;其次,從主干網絡中提取一個128× 128 的中間特征圖,此特征圖相對于高層次的特征圖來說包含更多的細節信息,從而能更加明確每個像素點的類別屬性;最后,將兩個尺寸為128× 128 的特征圖進行連接融合,最終輸出一個融合后的128× 128 特征圖,使得其具備高層次的語義信息和低層次的細節信息。
在融合兩個128× 128 的特征圖之后,再進行一次雙線性插值操作,完成四倍上采樣,得到一個512× 512 的特征圖。最后,進行逆向操作,使得預測圖像和原始圖像分辨率一致。
在圖像語義分割中通常需要獲取圖像的高級語義信息,以此加強對全圖的理解,而在獲取圖像高級語義信息的下采樣過程中難免會丟失圖像的細節信息,尤其是一些小目標,其在圖像中所占有的像素量少,在多次下采樣過程中很容易丟失。然而,這些細節信息和小目標會存在于低層次特征圖的通道中。
本文利用殘差網絡,結合通道壓縮方法和注意力機制來構建自適應注意力機制模塊,并將其嵌入改進的Xception-65主干網絡中。在本文的自適應注意力機制模塊中:
1)學習殘差網絡的結構。將單元的輸入特征圖經函數變換(通道壓縮、上采樣恢復和模塊權重值學習)后與單元輸出特征圖進行融合。
2)通道壓縮。由于單元輸入特征圖的不同通道中所包含的類別信息不同,因而將輸入特征圖在通道上進行全局平均池化處理,對應每個通道輸出一個點,每個點所對應的類別信息將有所不同。
3)通道信息處理。將單元輸入特征圖各通道壓縮成的點進行雙線性插值上采樣恢復,使得其分辨率與單元輸出特征圖的分辨率一致,此操作是為了方便自適應注意力機制模塊的輸出特征與單元輸出特征圖融合。
4)通道信息融合。為了更好約束自適應注意力機制模塊的輸出特征,引入一個權重值α與其相乘,α值可以通過學習來自動更新,最后將適應注意力機制模塊的輸出特征與單元輸出特征在通道上進行相加。
基于本文構建的自適應注意力機制模塊:首先,采用通道壓縮的方式來獲得單元輸入特征圖(前級特征圖相對次級特征圖包含的細節信息更豐富,小目標信息也更多)的通道信息,并將其融合到單元輸出特征圖(次級特征圖),此操作減緩了細節信息和小目標在下采樣過程中丟失的趨勢;其次,引入權重值α(可通過學習自動更新)約束注意力機制模塊,因此在與單元輸出特征融合的過程中可以調節注意力機制模塊的信息比重,以此達到更好的分割效果。圖1 展示了嵌入自適應注意力機制模塊的Xception-65 網絡結構。
通道壓縮的目的是為了獲得更豐富的高層語義信息,本文引入S1、S2、S3、S4 和S5 這5 個注意力機制模塊,其輸入對應于上一個殘差塊的輸出特征圖:首先,對注意力機制模塊的輸入特征圖進行一次全局平均池化處理;之后,輸出一個1× 1×C的特征圖,其中C為通道數,與殘差塊輸出特征圖的通道數一致,其數學表達式如式(3)所示:
其 中:gC∈RC,由大小 為H×W和通道數為C的特征 圖GC(i,j)生成;(i,j)表示特征圖上像素點的坐標。
為了將通道信息gC∈RC融合到殘差網絡輸出的特征圖中,需要將1× 1×C的特征圖與相應殘差網絡特征圖分辨率保持一致。步驟如下:首先,對gC進行雙線性插值上采樣以得到和對應殘差塊輸出特征圖分辨率一致的特征圖fC;之后,為了更好約束fC,需使用一個1× 1 大小的卷積核對fC進行卷積以輸出特征圖lC,lC和fC分辨率一致;為了約束每個注意力機制塊,引入了一個參數α,最終注意力模塊輸出的特征為(1/α)×lC,α的值是一個超參數。
本文提議在主干網絡的基礎上增加五個注意力機制模塊(S1,S2,S3,S4,S5)(如圖1 所示)。這五個注意力機制模塊分布在主干網絡的輸入層、中間層和輸出層上,因此每個注意力機制模塊所獲取到的通道信息表征能力也將不同。主干網絡的輸入層特征圖細節信息更為豐富,中間層具備細節信息和高層次語義信息,輸出層的特征圖高級語義信息則更為豐富。因此,本文測試了多種融合策略,并探索各種融合策略對最終圖像語義分割結果的影響,同時引入超參數α來平衡各個注意力機制模塊。
在實驗過程中,依托實驗室現有的設備和資源,本文使用基礎網絡Deeplab V3 Plus 為主干架構,同時通過兩種模式進一步修改了此網絡:1)手動設置權重經驗值;2)自動更新權重值。兩種模式相互對比驗證,最后在PASCAL VOC2012公共分割數據集和自己制作的植物蟲害數據集上,驗證本文提出的算法性能。
實驗使用的操作系統是Ubuntu16.04 版本,Tensorflow 深度學習框架,CUDA11.0 版本,硬件設備為32 GB 內存、顯卡1080Ti、NVIDIA GeForce 驅動程序450.57 版本,訓練Deeplab V3 Plus 網絡和基于自適應注意力機制的Deeplab V3 Plus 網絡進行對比驗證。
為了確保結果的真實有效性,本文使用公共分割數據集PASCAL VOC2012 和自己制作的植物蟲害分割數據集完成實驗。
3.2.1 公共數據集
PASCAL VOC2012[35]是深度學習中常用的一個公共數據集,包含目標檢測和圖像語義分割兩類數據集。本文使用的是PASCAL VOC2012 語義分割數據集,此數據集總共包含2 913 張帶有語義標注的圖像,1 464 張作為訓練集用來訓練圖像分割模型,其余1 449 張作為驗證集用來測試模型的分割精度。
3.2.2 植物蟲害數據集
植物蟲害數據集圖像主要通過網絡爬蟲獲得,為了使得蟲害圖像滿足訓練和測試的要求,本文采取以下操作制作植物蟲害數據集:1)人工剔除相同和相似性極高的圖像,最終滿足要求的圖片為538 張;2)依據PASCAL VOC2012 分割數據集的格式,使用labelme 軟件將538 張植物蟲害圖片進行語義標注;3)將圖片按照約4∶1 的比例進行劃分,其中438 張作為訓練集,100 張作為驗證集。
由于設備性能的限制,在PASCAL VOC2012 和自己制作的植物蟲害數據集上進行訓練時,所選取的批處理(batch size)設置為2。在隨機 梯度下 降(Stochastic Gradient Descent,SGD)優化算法中,動量(momentum)設置為0.9,權重衰減(weight decay)設置為0.000 04,神經元失活率(dropout rate)設置為0.5,基礎學習率設置為0.001,并且使用了“poly”衰減策略,并使用基礎學習率乘上,其中將PWR設置為0.9。在PASCAL VOC2012 分割數據集上訓練時,最大迭代步數設置為150 000;在植物蟲害數據集上訓練時,最大迭代步數設置為90 000。注意力機制模塊的權值為手動設置,不需要訓練α;在自動更新注意力機制模塊權重時,α根據損失函數的梯度進行更新。
模型訓練使用像素交叉熵損失函數,其表達式如式(4)所示:
其中:c表示類別數;yi為獨熱編碼向量,若該類別與標注類別相同則取1,否則取0;pi表示預測樣本屬于i的概率。
本文采用圖像語義分割中最廣泛的兩種評估方法:交并比(Intersection over Union,IOU)和平均 交并比(Mean Intersection over Union,MIOU),其數學表達式如式(5)和式(6)所示。
其 中:U1 表 示IOU,U2 表 示MIOU;k+1 表示類別數;TP=pii表示真正例,FP=pji表示假正例,FN=pij表示假負例;i表示正確類,j表示其他類。
為了探索注意力機制模塊對原始網絡框架的影響,本文在實驗的第一階段使用了一些策略來獲取注意力機制模塊的權值,稱之為經驗值,之后將經驗值手動設置到注意力機制模塊中;在實驗的第二階段,探索了幾種注意力機制模塊的融合方法;在實驗的第三階段,嘗試自動更新注意力機制模塊的權重值對圖像語義分割結果的影響。
3.5.1 權值手動設置
本實驗由三部分組成:1)初步獲得一個模型可使用的經驗值α;2)通過對α值進行交叉驗證,獲取α值對分割精度影響的趨勢;3)確定α最終值。
第一步,初步獲得模型可使用的α值。由于在實驗的初始階段無法得知注意力機制模塊的權重值α應設置為何值。因此實驗中先將α在同一個數量級上設置3 個值,隨后進行模型訓練。實驗現象如表1 所示,α值太小會導致網絡訓練終止,α值設置為10 模型訓練較為平穩,因此將10 定為α的初步經驗值。
表1 不同α值對應模型訓練的現象Tab.1 Phenomena of different α values corresponding to model training
第二步,獲取α值對分割精度的影響趨勢。首先將α值設置為10,訓練并獲得模型,隨后對模型展開測試,多次改變α的值,得到不同的分割精度。實驗結果如表2 所示:
表2 測試模型時改變α的值對應的分割精度Tab.2 Segmentation accuracy corresponding to changing α value when testing model
1)α設置為正數,在α=12.5 時模型獲得最高分割精度,并且以α=12.5 為中心,向兩邊呈遞減趨勢;
2)α設置為負數,在α=-12.5 時模型獲得最高分割精度,并且以α=-12.5 為中心,向兩邊呈遞減趨勢;
3)根據上述1)和2)的遞減趨勢,將α設置為-12.5 再次訓練,能獲得更佳的分割模型。
第三步,確定α最終值。根據第二步中,α值對分割精度的影響趨勢,α分別設置為-10、-12.5、-15,訓練并驗證模型。實驗結果如表3 所示:1)α=-12.5 模型獲得最佳分割精度;2)依然保持了以α=-12.5 為中心,向兩邊呈遞減趨勢;3)確定α=-12.5 為手動尋找到的最終值。
表3 驗證不同α值對應的分割精度Tab.3 Verification of segmentation accuracy of different α values
3.5.2 注意力機制模塊融合策略
為了進一步探索本文結構中各個注意力機制模塊對原始網絡性能的影響,本實驗將經驗值α設置為-12.5,同時探索了三種注意力機制模塊的融合方式(圖1):1)僅將輸入和輸出層中的S1、S2、S3、S5 融入原始網絡;2)僅將中間層S4 融入原始網絡;3)將所有層中的S1~S5 都融入原始網絡中。在上述三種融合方式中,第一種融合方式得到的分割精度最高,這表明注意力機制模塊間的融合策略也會影響網絡的性能。在本實驗所使用的數據為PASCAL VOC2012 公共分割數據集(實驗結果如表4 所示)。
表4 三種注意力機制模塊融合策略對應的分割精度Tab.4 Segmentation accuracies of three attention mechanism module fusion strategies
3.5.3 權值自動更新
在手動確定α=-12.5,并且確定最佳注意力機制模塊融合方式后。將α改為根據損失函數的梯度自動更新,注意力機制模塊融合方式則為:僅將輸入和輸出層中的S1、S2、S3、S5 融入原始網絡,表5 展示了模型獲得最佳分割精度的α值。圖3 展示了S1、S2、S3、S5 模塊α值的收斂曲線。
表5 模型最優時各注意力機制模塊的α值Tab.5 α value of each attention mechanism module when model is optimal
圖3 S1、S2、S3、S5模塊α值的收斂曲線Fig.3 Convergence curve of α value of S1,S2,S3 and S5 modules
圖4 展示了五種不同方式在訓練過程中損失函數的收斂曲線。五種不同方式在VOC2012 分割數據上的分割精度如表6 所示,方式1 以原始基礎網絡Deeplab V3 Plus 的分割結果作為基準;方式2 僅嵌入S1、S2、S3、S5 注意力機制模塊,α設置為-12.5;方式3 僅嵌入S4 注意力機制模塊,α設置為-12.5;方式4 加入S1、S2、S3、S4、S5 所有的注意力機制模塊,α設置為-12.5;方式5 僅嵌入S1、S2、S3、S5 注意力機制模塊,α通過損失函數的梯度自動更新。圖5 展示了上述五種不同方式的分割效果。
圖4 五種不同方式在訓練過程中損失函數的收斂曲線Fig.4 Convergence curves of loss function in training process of five different methods
圖5 五種不同方式在VOC2012分割數據集上的分割效果Fig.5 Segmentation effect of five different methods on VOC2012 segmentation dataset
表6 五種不同方式在VOC2012分割數據集上的分割精度Tab.6 Segmentation accuracies of five different methods on VOC2012 segmentation dataset
表7 展示了FCN-8S[10]、Deeplab-MSc-CRF-LargeFOV[14]、Deeplab V2[15](使用多尺度輸入,并在MS-COCO 上預訓練)、嵌入自適應注意力機制的Deeplab V3 Plus(即本文方法)在VOC2012 val 數據集上的實驗結果對比(val 為validation 的縮寫,VOC2012 val 數據集是VOC2012 數據集中的驗證集)。
表7 四種不同分割網絡在VOC2012 val數據集上的分割結果Tab.7 Segmentation results of four different segmentation networks on VOC2012 val dataset
表8 展示了在植物蟲害數據集上的分割精度實驗結果,五種不同方式的分割效果如圖6所示。
表8 五種不同方式在自建植物蟲害數據集上的分割精度Tab.8 Segmentation accuracy of five different methods on self-built plant pest dataset
圖6 五種不同方式在自建植物蟲害數據集上的分割效果Fig.6 Segmentation effect of five different methods on self-built plant pest dataset
根據表1~6、8 的實驗數據分析得出:1)注意力機制模塊的引入實質是引入了信息量,這些信息量的比重不能無約束的引入,無約束的引入很有可能將導致網絡在訓練過程中梯度消失,無法正常訓練;2)在無法獲取到注意力機制模塊權值較好的經驗值(α)時,需要采取科學的實驗方法逐步逼近較好的經驗值;3)在原始網絡中引入注意力機制模塊時,不同模塊對原始網絡的影響程度不同;4)通過自動更新注意力機制模塊的權重值與手動獲取到的經驗值對比,發現自動或手動得到的注意力機制模塊權重值基本吻合,這也進一步驗證了手動獲取經驗值方法的有效性;5)通過對比手動獲取注意力機制的權重值和自動更新注意力機制的權重值,可找到模型的局部最優解,但是仍然不能確保其是模型的全局最優解;6)適量的通道信息融入原始網絡可以獲得較好的分割結果。
本文制作了植物蟲害數據集,并探索了將注意力機制模塊引入Deeplab V3 Plus 結構中,以期獲得較好的圖像語義分割結果。實驗結果表明,在PASCAL VOC2012 和制作的植物蟲害數據集上,本文的方法均獲得了圖像分割精度的提升。但本文方法存在兩個不足:第一,對于網絡中各通道信息的處理還不夠細化,后續可深入探索通道的具體關系,在此基礎上分配相應權重系數進行約束;第二,植物蟲害數據集較為單一,數據量較少,后續可進一步擴充數據集。