賴松雨,史 方,廖 俊,周小力,趙 俊
(四川輕化工大學 自動化與信息工程學院,四川 宜賓 644000)
城市行道樹是指排列在城市街道兩旁具有觀賞價值和發揮各類生態效益的喬木[1]。城市行道樹調查中,行道樹與周圍環境之間相似度較高、行道樹樹種之間結構差異較大。以往林業人員在進行城市行道樹資源調查時主要采用人工實測的方法獲取行道樹的種類、樹冠形狀和紋理等參數信息,效率低下,人工成本高[2]。因此,運用深度學習的方法對采集到的街景圖片進行行道樹參數信息的獲取具有非常重要的意義。
近年來深度學習在檢測、分類和分割方面大量應用,一些研究者使用基于提議框的二階段目標檢測和直接進行邊界框的回歸的一階段目標檢測方法[3-4]進行行道樹檢測。董彥鋒等[5]提出了基于YOLO-v2網絡模型的改進型一階段行道樹檢測方法,在神經網絡中不經過區域提議層,在特征提取之后直接進行行道樹分類和邊界框回歸,該模型檢測的優點是檢測速度較快。二階段的行道樹目標檢測中,沈雨等[6]提出了一種基于Faster R-CNN的檢測框架,通過在原始模型中加入樹形分部加權R-CNN模塊,可以有效地解決部分遮擋問題。上述檢測模型中YOLO和Faster R-CNN檢測模型只能檢出行道樹的邊界框,不能對樹木的輪廓、紋理等細節做進一步的提取。陸清嶼等[7]提出了一種基于Mask R-CNN的行道樹檢測模型,該方法使用遷移學習的思想對模型進行訓練,在對行道樹進行定位以及分類的同時,在行道樹表面覆蓋一層掩膜,做到了將行道樹與背景進行分離,并能夠凸顯出行道樹的細節上的信息(如行道樹輪廓),在樹冠較密、樹干較粗的情況下該模型的分割效果較好,但在樹干較細、含遮擋的情況下出現樹干不能檢出、漏分割的問題。基于深度學習的方法,一定程度上節省了人工成本,增加了行道樹調查的便利性,但檢測效果還達不到預期的效果。本文認為,行道樹檢測有以下難點:一是提取的行道樹圖片質量不高,且行道樹與周圍環境相似度較高,圖像檢測算法不能提取到足夠的行道樹特征用于后續的檢測、分割過程。二是行道樹多為大、中等尺度目標,行道樹樹干一般情況下為細長帶狀結構,淺層特征圖的感受野有限,遠距離像素之間的關聯性不能充分結合。
為實現對行道樹更加高效的檢測,本文提出了基于Mask R-CNN[8]改進行道樹檢測算法,網絡做了以下2點改進:在Mask R-CNN網絡的特征提取模塊加入通道和空間注意力模塊,在通道層次和空間層次對行道樹特征進行凸顯,從而提升行道樹特征在神經網絡中的關注度。另外,在神經網絡的特征金字塔模塊中用多尺度特征融合模塊與上采樣的特征圖相加,從而對長距離上下文語義信息的關聯性進行充分建模。
Mask R-CNN模型訓練流程如圖1所示。本文主要對模型的特征提取階段進行改進。

圖1 Mask R-CNN模型訓練流程Fig.1 Training process of Mask R-CNN model
本文在Mask R-CNN網絡的基礎上,針對行道樹數據集的特點,提出改進型Mask R-CNN算法,該網絡的特征提取部分由主干網絡模塊、特征金字塔[9]特征增強模塊、通道-空間注意力模塊和多尺度特征融合模塊構成。特征提取模塊將輸出特征圖送至區域提議模塊,最后進入至行道樹檢測模塊。用I表示輸入的行道樹圖片,主干網絡各個階段的輸出可表示為:
Ci=Si(I),i=2,3,4,5,
(1)
式中,S表示對圖片進行特征提取操作;i表示圖片經過的卷積層數。其中每個卷積層中加入了通道-空間注意力模塊,用Fi表示輸入注意力模塊的特征,本文對加入的注意力模塊進行改進,使其能夠減少參數量,從而減少計算復雜度,同時能夠使抽象出更具體的目標特征。該模塊可以表示為:
FiCBAM=HCBAM(Fi),
(2)
式中,HCBAM表示注意力機制對輸入特征圖Fi進行空間和通道層次的建模。主干網絡輸出特征圖通過一個多尺度特征融合模塊進入到特征金字塔,用Ci表示每個階段輸出特征圖:
Ni=HMSFF(C2,C3,C4,C5),i=2,3,4,5,
(3)
式中,HMSFF表示對主干網絡不同尺度輸出位置及語義信息互補性進行建模;Ni表示輸出特征圖。經多尺度特征融合后再將特征圖輸入特征金字塔增強模塊:
Pi=HFPN(C5,N2,N3,N4,N5),i=2,3,4,5。
(4)
注意力機制的運用,使得神經網絡可以模仿人的視覺系統自動關注圖片中的重要信息,而對其他次要的信息進行忽略[10-11]。本文使用一種卷積注意力模型(CBAM)模塊[12]在主干網絡ResNet101[13]中進行集成,本文的算法中,基于注意力機制的模塊集成到主干網絡中每個階段的末尾中,集成位置位于每個階段中最后一個殘差塊,提取到的特征信息最多,對于注意力模塊的特征映射可以起到更大的效果,如圖2所示。

圖2 改進型Mask R-CNN模型Fig.2 Improved Mask R-CNN model
注意力模塊擁有易集成的特點,其具體集成位置如圖3所示。

圖3 Identity Block + CBAM模塊Fig.3 Identity Block + CBAM module
CBAM集成的位置在每個負責輸出C2,C3,C4,C5的Identity Block模塊,具體在該模塊的末端接入,進行集成的模塊都存在于主干網絡不同尺寸特征提取階段的末端,即每個階段提取特征信息最豐富的模塊,在這些模塊中最能捕獲到更豐富的重要信息,最后對其進行重要性等級的劃分。
相較于SE-Net模塊[14],CBAM的參數量、計算復雜度都更低,且可以同時在空間和通道2個維度上對重要信息給予更多的關注度。它可以靈活地集成到現有網絡,同時花費更少的計算開銷,這對前景、背景相似度較高的行道樹圖片的檢測、分割可以起到很大的作用。
1.2.1 通道注意力模塊
通道注意力機制主要解決的是讓神經網絡判斷是什么使神經網絡在空間層次對重要信息進行聚焦,本文采用的注意力模塊為CBAM中的通道注意力塊,如圖4所示。

圖4 通道注意力結構Fig.4 Channel attention structure
在該模塊的整個過程中,特征圖需要經過2個非線性全連接層,整個全連接模塊對每個通道和其余通道的交互關系進行建模,再進行通道數還原。通道注意力模塊的計算如下:
Mc(F)=σ(MLP(Avg(F))+MLP(Max(F)))=
σ(W1(W0(Avg(F)))+W1(W0(Max(F)))),
F∈H×W×3,W0∈C/r×C,W1∈C/r×C,
(5)
式中,F為輸入特征圖;W0,W1分別為MLP第一層和第二層全連接層的權重;r為減少率。
為減少每次的通道間交互關系的計算帶來的操作冗余以及進一步減少參數量,本文借鑒ECA-Net[15]模型的自適應選擇核大小的思想,使用了一個k近鄰通道交互模塊來替代MLP,該方法只對具有通道相關性的幾個相鄰通道進行交互關系建模,節省了不必要的計算開支,如圖5所示。

圖5 改進通道注意力結構Fig.5 Improved channel attention structure
改進型通道注意力模塊的計算如下:
M′c(F)=σ(C1Dk(Avg(F))+C1Dk(Max(F))),
(6)
(7)
(8)

C=φ(k)≈2(γ*k-b),
(9)
該式符合通道數C通常設置為2的整數次方原則,并且體現出指數形式的函數對處理未知映射函數的適用性。
1.2.2 空間注意力模塊
CBAM模塊中的空間注意力模塊(Spatial Attention Module,SAM)實現網絡在空間維度對重要特征信息進行感知,強調重要信息在哪里,空間注意力模塊保證了空間角度對任務目標特征進行充分的定位。
空間注意力網絡結構如圖6所示,不同空間位置特征的重要性以權重的形式表達。

圖6 空間注意力結構Fig.6 Spatial attention structure
1.2.3 通道空間組合模塊
本文采取先通道后串聯SAM的形式組合成可集成注意力模塊,其集成在每個卷積層中能夠提取到特征信息最豐富的殘差塊中。CBAM如圖7所示。

圖7 CBAMFig.7 CBAM
CBAM總的模塊計算公式如下:
(10)
通道注意力模塊的輸出Mc(F)與原輸入特征圖F進行乘法運算得到F′,F′再與空間注意力模塊的輸出Ms(F′)進行乘法運算,最后得到F″,通道注意力模塊和SAM的組合使得網絡對行道樹特征圖的重要信息進行了立體形式的呈現。
淺層特征中包含了大部分邊緣形狀特征以及大量的位置信息,而且隨著主干網絡層數的增加,網絡提取出的特征圖包含的語義信息更加抽象。雖然FPN對輸出的相鄰特征圖采用了特征融合的操作,擴大了每個尺寸特征圖的感受野,豐富了語義信息,一定程度上避免了模型直接使用主干網輸出特征進行圖像的預測。考慮到行道樹數據的特點,普遍為大目標,樹干細長,淺層特征的感受野還是相對有限,長距離語義信息關聯性不足,如圖8中紅色方形區域,淺層特征圖(圖左)的感受野存在盲區。

(a) 淺層特征圖感受野

(b) 深層特征圖感受野圖8 淺/深層特征圖感受野Fig.8 Shallow/deep feature map receptive field
針對該問題,本文借鑒PaNet[16]路徑聚合的思想,提出了多尺度特征融合的方法,使每個特征圖中的低階語義信息和高階語義信息充分互補,并且使每個尺寸特征圖中的元素得到足夠大的感受野。多尺度特征融合網絡如圖9所示。

圖9 多尺度特征增強網絡Fig.9 Multi-scale feature enhancement network
其中,C2,C3,C4,C5分別經過一個3×3卷積得到通道數相同的特征圖,再分別對特征圖進行上、下采樣至同一尺寸,然后進行特征圖拼接,變為通道數為原通道數4倍的特征圖,最后根據特征圖相加的尺寸相應地進行下采樣、上采樣操作,從而使每個特征圖的互補效果更加明顯。
本文所提模型在自制行道樹數據集上進行了實驗,與原模型進行了視覺比較和數據對比,并進行了消融實驗。
2.1.1 數據集
本文行道樹圖片信息采集設備為OnePlus6手機,拍攝采集地點位于四川輕化工大學及其周邊街道,樹種類別包含桂花、天竺桂、香樟、廣玉蘭和藍花楹5種常綠樹,共采集到行道樹圖片535張,圖片格式為jpg,均為RGB三通道。為適應行道樹檢測模型訓練并且增加模型的魯棒性,實驗將原始圖片進行裁剪,統一至512 pixel×512 pixel×3大小,并且對處理后的圖片進行水平翻轉、增加亮度2種數據增強操作對數據集進行擴充。對經過數據增強的圖片集使用Labelme進行手動標注,以json文件格式保存標注信息,再對其進行格式轉換以適用于模型訓練,所用到的文件如圖10所示,每個json對應生成5種不同格式的文件。

圖10 數據集格式Fig.10 Dataset format
最終獲得有效的標注圖片共1 070張。采集到的每個樹種的數量如表1所示。

表1 采集到各類行道樹數量Tab.1 Number of street trees collected
2.1.2 實驗環境
本文在實驗過程中所采用的硬件和軟件配置如表2所示。

表2 實驗平臺相關信息Tab.2 Related information of experimental platform
2.1.3 實驗細節
數據集在打亂順序后按6∶2∶2的比例劃分訓練集、驗證集和測試集。超參數:批大小設置為1,權重衰減設置為0.000 1,學習動量設置為0.9,網絡初始學習率為0.001,迭代16 080次后學習率降低至0.000 1,共迭代32 160次,其中每迭代640次輸入驗證集進行測試,測試后根據模型的訓練情況作相應調整。本文將改進的行道樹檢測模型與原模型性能分別進行訓練并進行測試,最后對實驗結果進行對比分析。圖11為Mask R-CNN模型與改進模型在行道樹數據集上的訓練情況,橫坐標為模型訓練的輪回數,一個輪回表示模型遍歷一遍完整的行道樹數據集,縱坐標表示模型在訓練集損失,一般來說,模型訓練至一定輪回數(epoch),訓練集損失值趨于穩定,模型停止學習。由圖11可知,改進Mask R-CNN模型初始訓練損失值比原模型要大,在經過20輪回數之后,2種模型趨于收斂。

圖11 模型訓練曲線Fig.11 Model training curve
為了對改進的Mask R-CNN模型與原模型進行綜合性的對比,本文采用目前公開的主流評估指標AP50,AP75,mAP,mIoU。AP50,AP75表示在交并比閾值為0.5和0.75下的平均精度。mAP表示交并比閾值為0.5~0.95下的平均精度求和求平均。上述評價指標的取值用百分制計。平均精確率的計算涉及到交并比、精確率和召回率,其中IoU計算如下:
(11)
式中,g為真實標簽掩膜;p為預測掩膜;area(g)∩area(p)為真實行道樹標簽區域像素和預測目標區域像素的交集;area(g)∪area(p)為真實標簽區域像素和預測目標區域像素的并集;IoU值的大小表示真實標簽區域像素與檢測出目標區域像素的重合程度。本文IoU閾值設置為0.5和0.75,在預測區域與真實目標IoU值大于0.5或0.75情況下,則將預測結果判定為正樣本(True positive,TP),否則判定為負樣本(False positive,FP)。精確率、召回率的計算如下:
(12)
(13)
行道樹檢測模型分類數量共有背景、行道樹2個類別,其中行道樹標簽定義為正樣本,TP為行道樹檢測模型預測為正(行道樹)的正樣本的數量,FP為行道樹檢測模型預測為背景的正樣本數量,FN為模型預測為背景的正樣本數量。P為正確識別出行道樹的數量與總的識別為行道樹的數量比值,代表正樣本預測結果的準確度,R為正確識別出的行道樹總數與真實行道樹樣本總數的比值,表示模型對正樣本的識別度。
在選定IoU閾值時將行道樹預測結果按置信度分數由高到低進行排序,并根據不同的樣本比例閾值計算精確率Pi和召回率Ri。根據計算結果繪制PR曲線,對PR曲線求積分求得AP值,其計算表達式為:
(14)
式中,N為檢測結果數;ΔR為相鄰樣本比例閾值之間召回率的增量。
為了對行道樹檢測模型的分割效果作數值上的比較,本文加入了圖像分割中總的真實掩膜集合和預測掩膜集合的交集與并集之比mIoU,計算如下:
(15)
式中,Pii表示把類別i正確識別為類別i的像素數量;Pij表示把類別j識別為類別i的像素數量;Pji表示把類別i識別為類別j的像素數量。
為了體現改進算法的優異性,本文算法不局限于與基礎算法性能的比較。本文使用U-Net[17]和FCN[18]兩種經典分割算法,在控制超參數相同的情況下輸入行道樹訓練集對網絡進行訓練,最終得到各網絡行道樹掩膜分割結果,如圖12所示。對于樹干較細、行道樹與周圍環境相似度較高的情況,本文方法分割的行道樹完整性要高于原模型,Mask R-CNN模型對于不明顯的目標出現了漏檢的現象,本文算法對樹冠不規則的行道樹分割的掩膜更能體現出行道樹的輪廓。值得注意的是,U-Net和FCN在圖12中展示了良好的樹干部分的分割。

(a) 真實掩膜

(b) 本文算法

(c) FCN

(d) U-Net

(e) Mask R-CNN圖12 樹干較細、環境相似度較高情況下模型檢測結果Fig.12 Model detection results under the condition of thin trunk and high environmental similarity
含部分遮擋條件下的模型檢測結果如圖13所示。可以看出,在行道樹包含了路燈、廣告牌等遮擋的情況下,本文算法體現了優秀的區分能力,實現了行道樹與遮擋物更高的分離程度。

(a) 真實掩膜

(b) 本文算法

(c) FCN

(d) U-Net

(e) Mask R-CNN圖13 含部分遮擋條件下的模型檢測結果Fig.13 Model detection results with partial shelters
在視覺效果上證明了本文算法的可行性后,將模型與其他經典模型在評價指標mIoU上作進一步比較,如表3所示。

表3 不同算法之間分割指標對比Tab.3 Comparison of segmentation indices of different algorithms
由表3各算法的mIoU數值對比可知,3種算法的平均交并比都超過了80,本文算法較FCN算法mIoU提升了11.1,說明本文算法在對行道樹分割這一任務上具有更好的適應性。
表4通過對類別平均精度(AP),類別均值平均精度(mAP),類別平均交并比(mIoU)進行比較,可以得出改進后的模型評價結果相比原模型有全面的提升,其中2種樹冠比較密集的天竺桂、香樟的類別平均精度AP50,AP75分別提升至100。

表4 改進后的模型與原模型測試結果評價Tab.4 Evaluation of test results between the improved model and the original model
為了進一步研究注意力機制以及多尺度特征增強在模型檢測行道樹圖片時的作用,本文進行了消融實驗,性能對比如表5所示。

表5 注意力機制和多尺度特征增強性能對比Tab.5 Performance comparison of attention mechanism and multi-scale feature enhancement
上表中的評價指標計算方式皆為對類別評價指標求和求平均所得。由上表可知,單獨加入多尺度特征增強模塊進行改進時,AP50精度略微下降,而AP75,mIoU分別增加了0.9,1.1,可見特征增強的加入一定程度上提高了模型對行道樹分割的完整度。在特征增強和注意力模塊同時加入時模型評價指標效果提升最為明顯,AP50,AP75,mIoU,mAP分別提升2.4,2.6,2.0,3.6。綜合以上結果,改進后的模型對行道樹的檢測、分割性能更優。
為了研究改進后的算法對單張圖片預測速度的影響,首先在控制超參數相同的情況下,使相同的數據集對原模型和改進的3種算法進行訓練,得到相應的權重文件,對相同的行道樹圖片進行預測。最后得到每種算法的預測時間,如表6所示。

表6 模型檢測速度Tab.6 Model detection speed
由表6可知,Mask R-CNN 模型所需要的預測時間最少,本文算法耗費的預測時間最長,相比原模型增加了0.98 s,其中加入改進型CBAM模塊帶來預測時間的增加較多尺度特征增強模塊更多。總的來說,本文基于Mask R-CNN算法的改進帶來的參數量的變化較小,算法的單張圖片預測時間無明顯增加。
本文針對Mask R-CNN模型應用于行道樹目標檢測、分割時出現的不足進行分析,針對行道樹的顏色相似度、結構等特點,在Mask R-CNN模型基礎上進行改進。為提高模型的檢測性能,增加遮擋情況下模型對行道樹圖片的處理能力,在原模型中引入通道-空間混合注意力機制,對輸出的行道樹特征圖進行立體式的重要信息捕獲。為提高行道樹分割的完整性,引入一個多尺度特征融合,對主干網和特征金字塔的連接方式進行替換,從而增強行道樹特征圖語義信息的互補性。該實驗證明了改進型行道樹檢測模型在自制行道樹數據集上的評價指標結果有所提升,視覺上的檢測、分割效果也更加明顯。