楊蜀秦 宋志雙 尹瀚平 張智韜 寧紀鋒,5
(1.西北農林科技大學機械與電子工程學院,陜西楊凌 712100; 2.農業(yè)農村部農業(yè)物聯網重點實驗室,陜西楊凌 712100;3.西北農林科技大學信息工程學院,陜西楊凌 712100; 4.西北農林科技大學水利與建筑工程學院,陜西楊凌 712100;5.陜西省農業(yè)信息感知與智能服務重點實驗室,陜西楊凌 712100)
隨著精準農業(yè)的發(fā)展,利用遙感信息對農田作物進行快速準確的分類以獲取其種植面積及空間分布信息的需求越來越大。作為長勢監(jiān)測、墑情調查、產量預估和災害評估等[1-5]工作的基本前提,遙感監(jiān)測對農業(yè)生產分析、管理和決策具有十分重要的意義。
目前,利用遙感技術監(jiān)測作物主要包括衛(wèi)星和無人機兩種方式[6-7]。高空衛(wèi)星遙感覆蓋面積大、探測周期短,是大范圍農情信息監(jiān)測的重要技術手段[8-9]。相關應用主要包括提取地表植被指數[10]、光譜、紋理和地形特征[11],以及融合雷達與光學影像等數據[12]識別地物。低空無人機遙感具有機動靈活、時效性強和分辨率高等特點,已被廣泛用于農田級區(qū)域的農情信息獲取,特別是田地種植分布信息的提取[13-17]。韓文霆等[15]基于可見光遙感影像,結合支持向量機和決策樹分類模型,對土地利用和覆被分類進行研究。戴建國等[16]從無人機遙感影像中提取紋理和低通濾波特征,采用支持向量機方法實現了對農田作物的分類。WU等[17]利用農作物收獲后和作物生長期的數字表面模型(Digital surface model, DSM),采用基于對象的分類方法和最大似然方法,結合遙感圖像和作物高度信息識別作物類型。
目前,對農田作物種植分布的研究主要基于人工選擇特征,采用支持向量機等傳統機器學習方法,其分類結果具有一定局限性[18]。近年來,深度學習語義分割方法在圖像分類領域取得了較大突破[19-20],已在地膜識別[21-22]和溫室大棚分類[23]等農業(yè)領域取得良好的效果,相對基于人工特征的分類方法優(yōu)勢明顯[24]。但在農田作物種植分布監(jiān)測研究方面卻鮮見報道。
為精準獲取農田作物的種植信息,本文提出一種基于無人機多光譜農田遙感影像的深度語義分割模型。通過改進輸入層結構以適應多光譜圖像和農田植被先驗特征融合,修改激活函數以優(yōu)化DeepLab V3+模型,克服其在農業(yè)遙感解譯領域的限制。為驗證模型的泛化性能,基于研究區(qū)域2018—2019年的遙感影像,在2018年數據集上訓練建模,在2019年數據集上測試模型性能。并與支持向量機(Support vector machine, SVM)方法、SegNet網絡和DeepLab V3+網絡進行比較,以驗證本文方法的有效性和優(yōu)越性。
試驗地點位于內蒙古河套灌區(qū)西部的沙壕渠灌域(北緯40°52′~41°1′,東經107°5′~107°12′),地處我國干旱與半干旱、荒漠與草原的過渡地帶,具備中溫帶高原的大陸性氣候特征,氣候干燥,蒸發(fā)量大,屬于無灌溉即無農業(yè)地區(qū)。如圖1所示,研究區(qū)域包括2塊土壤條件和作物種類不盡相同的試驗田,每塊試驗田拍攝面積在20~30 hm2之間。1號試驗田鹽堿化較嚴重,主要作物包括向日葵(81.16%)和玉米(5.03%)。2號試驗田鹽分相對較低,主要種植玉米(5.06%)、向日葵(5.27%)、西葫蘆(4.56%)等作物。
采用大疆經緯M600型多旋翼無人機,搭載Micro-MCA型高分辨率多光譜相機(分辨率為1 280像素×1 024像素),于2018年8月中旬和2019年8月中旬連續(xù)兩年的同一時期采集試驗區(qū)域在6個不同波長下的遙感影像,包括490 nm(B)、550 nm(G)、680 nm(R)3個可見光波長和720、800、900 nm 3個近紅外波長。無人機飛行高度150 m,遙感圖像地面采樣距離(Ground sampling distances, GSD)為81 mm,航向重疊率85%,旁向重疊率70%,按預定飛行軌跡點進行拍攝。為減少太陽高度角的影響,拍攝時間設在13:00。無人機航拍的原始單通道圖像首先由PixelWrench2軟件配準合成,再通過Pix4Dmapper軟件拼接,拼接后每塊試驗田遙感影像平均分辨率約為10 000像素×10 000像素。
采用2018年遙感影像數據作為分類模型的訓練集和驗證集,2019年數據作為測試集。其中,訓練集用來訓練模型,驗證集隨訓練集一起輸入模型但不參與訓練,用于調整模型的超參數和評估模型,測試集用于檢驗模型的泛化性能。首先,結合實地調查和目視解譯,利用LabelMe工具人工標注正射遙感影像,得到兩塊試驗田的地面實況(Ground truth, GT);其次,從2018年拍攝的2幅圖像中隨機裁切出4 000幅256像素×256像素的樣本圖像;再通過加噪、旋轉、縮放和鏡像等處理進行圖像擴充,并按3∶1的比例將擴充后的圖像劃分成訓練集和驗證集,其樣本數量分別為12 000幅和4 000幅。
全卷積神經網絡(Fully convolutional networks, FCN)是由SHELHAMER等[25]于2014年提出的一種端到端的語義分割網絡,是深度學習語義分割領域的開創(chuàng)性工作。它將全連接層轉換為卷積層,在實現像素級預測的同時保留了原始圖像的空間信息,其后的語義分割網絡都是在其基礎上發(fā)展改進的。SegNet深度語義分割模型[26]在編碼及解碼方面進行了改進。編碼器采用VGG16網絡,用于提取圖像的深層特征。解碼器是與編碼結構對稱的上采樣結構,每一個編碼層都對應一個解碼層,解碼操作是不斷從編碼器中釋放出存儲的位置信息,從而完成上采樣操作,解碼層最終的特征圖經過Softmax分類器對每個像素進行分類。
DeepLab V3+網絡是在DeepLab V3的基礎上進一步改進得來[27]。在DeepLab V3中,最終的輸出圖像是直接對特征圖像16倍上采樣得到,不足以重構物體分割細節(jié),導致最終分割結果的邊界細節(jié)較差。DeepLab V3+采用空洞卷積,使其在級聯模塊(采用50層或101層的ResNet網絡)和空洞空間金字塔池化(Atrous spatial pyramid pooling, ASPP)的框架下,能夠獲得更多的尺度信息[28]。在編碼-解碼結構方面,采用低維特征逐步對高維特征上采樣,以便更好地恢復邊界細節(jié)。在提高網絡尺寸適應性方面,DeepLab V3+為帶孔空間金字塔池化模塊增加了不同尺度范圍內語義信息的區(qū)分和提取,利用多種比例和有效感受野的不同分辨率特征,挖掘多尺度的上下文內容信息,以實現對不同尺寸目標的識別。此外,DeepLab V3+運用Xception模塊,將帶孔空間金字塔池化模塊改為深度可分離卷積結構,有效地降低了計算復雜度。
將現有深度語義分割模型直接用于農田多光譜遙感影像會存在一些限制。例如,不能直接處理多波段圖像、沒有有效利用農業(yè)遙感影像先驗知識、常用的ReLU激活函數對負值無響應易導致性能下降等[29-30]。因此,針對這些不足,本文基于DeepLab V3+模型從先驗信息融合、輸入層結構修改和激活函數選擇3方面提出相應改進,構建適用于多波段農田遙感影像的深度語義分割網絡,以獲得更優(yōu)的多光譜遙感作物分類模型,其結構如圖2所示。
模型的主要改進包括:首先,構建融合各類植被指數的特征模塊,以充分利用多光譜遙感影像的光譜信息。該模塊通過對遙感影像相應通道進行波段運算,得到一系列植被指數,剔除奇異值后,對所有指數做歸一化處理,并以特征圖的形式合并到輸入通道。其次,由于DeepLab V3+的研究主要集中在可見光圖像處理領域,無法直接處理更多通道圖像,本文按照波段數和植被指數特征圖增加輸入通道,使模型適用于輸入融合農田先驗知識的多光譜遙感影像。另外,針對眾多的植被指數和光譜特征導致信息冗余和模型不易收斂問題,運用SENet[31]中提出的方法建模特征通道間的相關性,采用全局池化生成每個特征通道的權重,以提取最重要的分類特征。最后,考慮到當前廣泛使用的ReLU激活函數對負值無響應,將其修改為最近提出的Swish激活函數[32],使得網絡在具備ReLU優(yōu)點的同時,當輸入為負值時,仍能進行反向傳播,從而訓練出更魯棒的分類模型。
為了驗證提出算法的有效性,本文將其與傳統的SVM機器學習算法以及SegNet和DeepLab V3+兩種常用的深度語義分割模型進行比較。
對于SVM[33]機器學習算法,根據文獻[16]提出的方法,將遙感影像的可見光波段圖像轉換到HSI顏色空間中,并通過紋理濾波處理得到H-CLP、H-Ent、I-Cor、I-CLP、I-Ent、S-CLP和I-Var等7個輸入特征,對農田作物進行分類。
對于SegNet、DeepLab V3+和本文方法3種深度學習模型,首先將數據集轉換為標準數據集格式,然后下載公共數據集上訓練好的開源預訓練模型以增加深度學習的泛化性能和訓練速度[34]。訓練時根據模型損失及時調整超參數,并找到較優(yōu)的初始值。最后,以訓練好的模型預測測試集圖像并計算準確率。
在本文改進算法中,選取NDVI、EVI、DVI、NDWI、ARVI 5種植被指數構建先驗特征圖模塊,利用開源下載的ResNet 101模型作為預訓練模型,并采用與DeepLab V3+相同的超參數進行訓練,以加快訓練速度。NDVI為歸一化植被指數,EVI為增強植被指數,DVI為差值植被指數,NDWI為歸一化水指數,ARVI為大氣阻抗植被指數。
本文深度學習運行硬件環(huán)境為Lenovo SystemX 3650 M5服務器,搭載NVIDIA Tesla P100顯卡。操作系統為Ubuntu 16.04,采用Tensorflow深度學習框架構建網絡;SVM運行硬件環(huán)境為Dell Precision Tower 7810服務器,軟件環(huán)境為Matlab 2016b。
SVM類型選擇為C-SVC,核函數類型為RBF函數。SegNet、DeepLab V3+及改進的DeepLab V3+模型采用分段常數下降法控制學習率,迭代次數為50 000次。其中SegNet初始學習率為0.001,批尺寸為6;DeepLab V3+以及改進的DeepLab V3+初始學習率為0.1,批尺寸為6,矩為0.9,權值退化率為0.000 4。
采用平均像素精度(Mean pixel accuracy, mPA)和平均交并比(Mean intersection over union, mIoU)作為分類結果評價指標[35]。
SVM方法和3種深度學習方法的試驗結果指標如表1所示。其中,SVM、SegNet和DeepLab V3+的結果是針對3通道的可見光圖像,而改進的DeepLab V3+的分類結果是針對融合5種植被特征的6波段多光譜圖像。圖3為4種算法在2019年無人機遙感影像預測集上的分類結果。
3.1.1人工特征與深度學習的比較
表1和圖3的分類結果說明SVM的分類精度不高,分類效果呈現不連續(xù)的塊狀。而SegNet、DeepLab V3+和改進的DeepLab V3+等3種深度學習方法則表現出更高的分類精度及更為精細的分類效果。其中,SegNet和DeepLab V3+網絡平均像素精度分別比SVM高12.41、15.19個百分點,本文方法則高SVM 17.75個百分點,獲得了93.06%的最優(yōu)分類效果。在運行速度方面,SVM能快速擬合適量樣本數據,但預測速度較低。深度學習雖然訓練模型時間較長,但其像素級的分類方法可直接輸入整幅圖像,因此預測效率更高。

表1 無人機遙感影像作物分類結果比較Tab.1 Comparison of crop classification results based on UAV remote sensing images
3.1.2深度語義分割模型比較
對比圖3中3種深度學習方法的分類效果可以看出,SegNet和DeepLab V3+的預測結果均有較為明顯的拼接痕跡,雖然農田覆蓋整體分類正確,但仍存在較多細節(jié)錯誤。例如,1號試驗田容易對玉米區(qū)域誤檢測,2號試驗田對于稀疏的西葫蘆地塊識別準確度相對較低,并對部分向日葵地塊識別錯誤。而改進的DeepLab V3+分類效果最優(yōu),mPA和mIoU指標均最高,誤分類區(qū)域相對較少,且具有更少的噪聲點,其混淆矩陣如圖4所示,對3種作物和背景的像素精度均超過90%。這表明本文提出的融合植被指數的深度學習方法能夠提高模型的特征提取能力和作物分類精度,并具有較好的泛化性能。從運行時間上來看,由于改進的DeepLab V3+模型輸入除可見光信息外還包含近紅外光譜數據和植被指數特征圖,因此訓練時間最長,但對預測集的運行時間卻與DeepLab V3+接近。
3.2.1深度學習與傳統方法的比較
本文采用的無人機多光譜遙感影像的時間及空間跨度較大、作物種類復雜,分類目標中包括了高冠層密度作物(玉米)、中等冠層密度作物(向日葵)以及低冠層密度作物(西葫蘆)。研究區(qū)域鹽堿化嚴重且程度分布不均衡造成植被長勢復雜。2019年向日葵受多種因素影響,其長勢與2018年同時期的向日葵差異明顯。另外,從圖3b中可看出,該時期的西葫蘆和向日葵顏色特征差異較小,這些因素都對分類模型的泛化性能提出了更高的要求。
基于滑動窗口以及人工特征的SVM采用人工設計特征,是一種基于塊的分類方法,受主觀設計經驗、特征分類能力以及實際作物空間分布等因素限制,適用于檢測具有明顯光譜特征差異的簡單目標。對于低冠層密度或粗紋理特征的作物,固定的滑動窗口限制了SVM的感受野,使其更易受到背景影響。試驗結果也表明SVM對冠層密度高的玉米分類效果相對較好,而對更為稀疏或冠層密度較低的向日葵和西葫蘆,誤分類則明顯增加。特別是圖3a中的向日葵長勢更為稀疏,由分類結果可見,這對具有小感受野的SVM的預測精度影響更大。
深度學習感受野較大,并具備像素級的分類能力。大感受野使得深度學習模型既能識別簡單目標,也能對稀疏特征目標很好地分類[36]。更深的層數能夠提取高層語義特征,因而比單純的人工特征能更好地表示目標。另外,在運行速度方面,雖然深度學習在構建模型時需要大量時間,但均以更少的預測時間獲得了更高的分類精度,這使得訓練好的深度學習網絡更適合用于實際場景中。
3.2.2植被指數特征圖模塊對分類性能的影響
改進的DeepLab V3+模型根據波段運算繪制歸一化的像素級植被指數分布圖,并通過計算波段間權重自動選擇對特定植被更有效的農田先驗特征。由圖5可見,DVI[37]對土壤背景變化較為敏感,對不同類型的作物區(qū)域都能較好地擬合植被覆蓋度,因而適合區(qū)分土壤背景和農田作物;另外,在近紅外波段,相對于向日葵,玉米的反射值較低,導致了后者的NDVI值比前者更低,說明NDVI能夠較好地區(qū)分向日葵種植區(qū)、玉米種植區(qū)與背景區(qū)域。而對于其他區(qū)分度較低的植被指數,提出的算法則通過SE模塊自動賦予較低的權重,減少其對分類性能的干擾。因此,模型中加入這些計算簡便、特性穩(wěn)定的植被指數特征圖模塊,對于基于深層特征提取的深度學習將起到一定補充作用。
3.2.3光譜特征對分類性能的影響
相對于可見光影像,6波段的多光譜影像提供了更豐富的信息。除用于構建植被指數外,近紅外光譜信息對深度學習模型的性能也會產生影響。在不考慮植被指數特征圖模塊的前提下,利用本文方法測試不同近紅外波段組合的遙感影像分類性能,結果如表2所示,其中,N1為波長720 nm的近紅外通道,N2為波長800 nm的近紅外通道,N3為波長900 nm的近紅外通道。RGB與NIR試驗組都只包含3個波段信息,其分類精度接近。為RGB影像增加1個近紅外通道,分類精度會略有提升。而6通道的RGB_NIR試驗組的mPA和mIoU指標分別達到92.12%和86.46%,略低于表1中加入植被指數特征圖模塊的最佳分類精度。因此,可認為影響模型分類性能的主要因素在于RGB通道與近紅外通道所共有的紋理特征,通過增加光譜通道能夠有效提高分類性能。

表2 不同波段組合的分類結果Tab.2 Classification results of experimental groups with different band combinations
從圖5中可以看出,向日葵和西葫蘆的光譜特征在冠層顏色和植被指數方面較為接近,因此增加波段對向日葵和西葫蘆的分類效果提升有限。西葫蘆與向日葵在紋理特征上具有較大的差異,如西葫蘆相對更為稀疏且果實明顯,因此紋理特征對向日葵和西葫蘆分類影響最大。
(1)針對包含不同作物和不同土壤環(huán)境的農田多光譜無人機遙感影像,將深度語義分割模型應用于農田作物分類。利用卷積神經網絡端到端強大的特征學習能力,基于DeepLab V3+模型,通過修改輸入層、融合多光譜信息和植被指數先驗信息、并修改激活函數來優(yōu)化模型,提出了一種改進的作物分類方法。與SVM分類方法和SegNet、DeepLab V3+兩種代表性的深度學習方法相比,改進的DeepLab V3+模型獲得了最優(yōu)的分類結果,同時具有實時性。
(2)通過對比分析不同波段組合的多光譜遙感影像分類性能,發(fā)現三通道的可見光圖像和近紅外圖像的性能相近,且具有更多通道數量的輸入圖像,能夠得到更好的分類結果。試驗結果表明,由于無人機遙感影像高分辨率的特點,農田作物的紋理特征是分類的主要依據,融合更多光譜信息和植被指數特征有助于提高分類性能。