楊蜀秦 王鵬飛 王 帥 唐云松 寧紀鋒 奚亞軍
(1.西北農林科技大學機械與電子工程學院, 陜西楊凌 712100; 2.農業農村部農業物聯網重點實驗室, 陜西楊凌 712100;3.陜西省農業信息感知與智能服務重點實驗室, 陜西楊凌 712100; 4.西北農林科技大學信息工程學院, 陜西楊凌 712100;5.西北農林科技大學農學院, 陜西楊凌 712100)
小麥作為世界三大主要糧食作物之一,是淀粉、蛋白質、維生素、膳食纖維等植物化學物質的重要來源[1]。受氣候、品種性狀或栽培管理不當等因素影響,在小麥生育中后期,容易發生倒伏現象。灌漿期的小麥植株受倒伏影響容易發生病蟲害,會降低小麥產量和品質。成熟期倒伏小麥匍匐在地,將增大小麥收割難度,導致收獲小麥的經濟和時間成本增加[2]。因此,選育具有抗倒伏能力的小麥品種對于育種非常重要。另外,準確鑒定小麥倒伏程度也是保險公司勘定農業損失并估算災害理賠金額的重要依據。
小麥倒伏從形式上可分為根倒伏和莖倒伏,根倒伏源自小麥發育不良造成的扎根淺,一經風吹雨打就會匍匐于地或土沉根歪;莖倒伏主要是小麥莖稈中糖分積累變少和莖壁變薄,減弱了抗倒能力,莖基部節間(多數是基部三節)彎曲傾斜或折斷后平鋪于地[3]。一些學者利用正常小麥和倒伏小麥在顏色和空間結構上的不同,基于衛星和無人機兩種遙感技術,利用經典機器學習和深度學習方法開展小麥倒伏識別研究。高空衛星遙感探測面積大、周期短,適用于大尺度范圍下小麥農田的農情信息獲取[4-5]。基于Radarsat-2全極化影像數據,楊浩等[6]提出了一種利用雷達極化指數檢測小麥倒伏的方法,實現了對小麥抽穗灌漿期的倒伏檢測;胡宗杰等[7]通過人工模擬小麥灌漿期的倒伏現象,采用光譜儀測量倒伏小麥的光譜反射率,研究表明小麥在灌漿期倒伏后,其光譜變化明顯,且與倒伏角度有關,為高分辨率遙感影像檢測小麥倒伏提供了理論基礎。無人機遙感技術在獲取田塊級小麥生長信息方面具有機動靈活、時效性強和分辨率高等特點[8-12]。LIU等[13]基于無人機獲得的圖像中的光譜和紋理特征來確定小麥倒伏區域;CHAUHAN等[14]對無人機多光譜影像,利用多分辨率分割和最近鄰分類算法根據倒伏的程度將小麥倒伏區域劃分為正常、中度、重度和極重度;李廣等[15]提取小麥無人機可見光影像中倒伏區域的兩個單特征,構建倒伏信息的綜合特征,結合k均值算法,提出了一種多時相倒伏面積提取方法;趙靜等[16]采用無人機遙感平臺獲取小麥倒伏后的冠層可見光圖像,利用最大似然法和隨機森林法對數字表面模型和可見光融合圖像以及數字表面模型和過綠特征指數融合圖像進行監督分類提取小麥倒伏面積。CAO等[17]提出了一種基于分水嶺和自適應閾值分割的小麥倒伏提取方法,將兩種算法結合減少噪聲對提取小麥倒伏信息的影響。以上研究主要對于單個生長階段使用經典的機器學習方法識別小麥倒伏,其特征選擇依賴于傳統方法,模型泛化性能較弱,難以應用于多生長階段的小麥倒伏監測。ZHANG等[18]提出一種結合遷移學習和DeepLab v3+的方法提取試驗條件下通過人工干預得到不同生長階段的小麥倒伏信息,然而其在多生育期大田小麥自然倒伏的監測還需進一步驗證。為提升多生育期農田環境下無人機可見光遙感影像對倒伏小麥的解譯能力,本文采用多頭自注意力模塊優化DeepLab v3+的骨干網絡,提出一種基于多頭自注意力的深度語義分割模型獲取小麥倒伏信息。并與SegNet[19]、PSPNet[20]和DeepLab v3+[21]模型以及添加不同注意力模塊的DeepLab v3+模型進行比較,以期為利用無人機遙感技術鑒定小麥倒伏災害和良種選育等提供參考。
研究區域位于陜西省關中平原西部楊凌農業高新技術產業示范區曹新莊試驗農場(圖1),介于東經107°59′~108°08′,北緯34°14′~34°20′之間,平均海拔530 m,屬東亞暖溫帶半濕潤半干旱氣候區,春暖多風、夏熱多雨、秋涼陰雨、冬寒干燥的大陸性季風氣候特征明顯。年均氣溫12.9℃、無霜期211 d、日照時數2 163.8 h、總太陽輻射量114.86 kcal/cm2和降水量635.1 mm,具備小麥適宜生長的自然條件。

圖1 研究區位置Fig.1 Location of study area
2021年5月中旬楊凌出現大風、暴雨等惡劣天氣,導致試驗田小麥發生嚴重倒伏,實地調查部分小麥倒伏情況如圖2所示。本研究于2020年5月18日和6月2日分別采集試驗田小麥灌漿期和成熟期的無人機可見光遙感影像。無人機型號為大疆精靈4 RTK,最大飛行時間約30 min,搭載了DJI FC6310R型可見光相機,成像分辨率為4 864像素×3 648像素。數據獲取于當日10:00—12:00。5月18日氣溫14~28℃,多云,東風2級;6月2日氣溫18~33℃,多云,東南風2級。無人機飛行高度25 m,飛行速度1.5 m/s,航向重疊率85%,旁向重疊率75%,共規劃14條航線,獲得原始圖像506幅。采用大疆智圖軟件拼接無人機遙感原始圖像,獲得試驗田數字正射影像。

圖2 小麥倒伏情況示例Fig.2 Examples of wheat lodging
試驗區域包含17個育種小區,如圖3所示,其中小面積育種小區13個(1~12號、17號),大面積育種小區4個(13~16號),其余未框選區域為隔離帶。遙感影像中小麥在灌漿期和成熟期發生倒伏時冠層的顏色、紋理等特征均存在明顯差異,灌漿期的倒伏小麥偏淺綠且倒伏角度較小,而成熟期的倒伏小麥偏淺黃色且倒伏角度較大基本貼近地面。利用Labelme軟件進行小麥倒伏標注,目視解譯結合人工實地調查對倒伏區域的標注結果如圖4所示。

圖3 試驗田育種小區布局圖Fig.3 Layout of experimental field breeding plot

圖4 小麥2個生長階段的可見光圖像和相應的標簽圖像Fig.4 RGB images of two growth stages of wheat and corresponding lodging area labels
以育種小區為基本單元對拼接標注后試驗田正射影像進行裁剪。統計試驗區域各育種小區灌漿期和成熟期倒伏小麥面積占比如圖5所示。可以看出,試驗區域小麥倒伏情況存在著較大差異。灌漿期的11個育種小區中,倒伏小麥面積占比達到40%以上。而成熟期時,這些育種小區倒伏進一步加重,如17號小區的倒伏占比從30%增至45%。由圖4可知,小麥倒伏區域分布不規律,小部分小麥倒伏區域分布十分零散,大部分小麥倒伏區域分布集中表現為成片倒伏。在構建數據集時應充分考慮以上問題,增加訓練集數據多樣性,以得到泛化性能最優的模型。

圖5 小麥倒伏情況統計分析Fig.5 Statistical analysis of wheat lodging
按照3∶1比例將育種小區劃分為訓練驗證集和測試集,6號、12號、13號和17號4個育種小區為測試集,而其余13個育種小區作為訓練驗證集。其中,訓練集用于訓練調整網絡模型權重,驗證集用于評估最優的模型超參,測試集用于評估最終模型的性能[22]。考慮到深度學習網絡性能對于數據集容量的依賴性,本文通過擴充訓練集,獲得大量圖像數據,增強網絡的泛化性能。另外,為加快訓練速度,將訓練集和驗證集樣本設置為256像素×256像素。具體過程為:從訓練集和驗證集中隨機裁取若干256像素×256像素的圖像,并對裁剪后的訓練集圖像做加噪、鏡像、旋轉和模糊等圖像增強處理,最后獲得的訓練集圖像數量為9 032幅,驗證集圖像數量為1 004幅。
語義分割結合了圖像分類、目標檢測和圖像分割。首先將圖像劃分為具有一定語義含義的區域塊,并識別出每個區域塊的語義類別,實現從底層到高層的語義推理過程,最終得到一幅具有逐像素語義標注的分割圖像。與傳統的語義分割方法相比,基于卷積神經網絡的語義分割方法自動學習圖像的特征,實現端到端的分類學習,能夠極大提升語義分割的精確度。
DeepLab v3+網絡是通過對DeepLab v3[23]增加了編-解碼模塊和Xception主干網絡改進而來。其中編解碼模塊主要用于恢復原始像素信息,更好地保留分割細節和同時編碼豐富的上下文信息;而Xception主干網絡采用深度卷積進一步提高算法的精度和速度。在Xception結構中,先對輸入進行1×1的卷積,之后將通道分組,分別使用不同的3×3卷積提取特征,最后將各組結果串聯在一起作為輸出。
Deeplab v3+采用空洞卷積,使其在級聯模塊(采用50層或101層的ResNet網絡)和空洞空間金字塔池化(Atrous spatial pyramid pooling, ASPP)的框架下,能夠獲得更多尺度的信息。DeepLab v3+解碼部分借鑒了FCN的跳步連接方式,用中間一層低維特征圖擴充輸出圖信息,以便更好地恢復邊界細節。在提高網絡尺寸適應性方面,DeepLab v3+為帶孔空間金字塔池化模塊增加了不同尺度范圍內語義信息的區分和提取,利用多種比例和有效接受野的不同分辨率特征來挖掘多尺度的上下文內容信息,以實現對不同尺寸目標的識別。
2.2.1DeepLab v3+識別小麥倒伏的局限性
在DeepLab v3+模型中,雖然豐富的語義信息被編碼,但骨干網絡的多次下采樣,使得倒伏小麥的邊緣信息丟失,從而導致邊緣模糊;使用空洞卷積可以緩解由于下采樣過多使得倒伏小麥邊緣信息丟失的問題,但空洞卷積會造成局部信息丟失以及遠距離獲取的信息關聯減弱。此外DeepLab v3+網絡中ASPP結構使用不同擴張率(6、12、18)來并行處理輸入特征以提取多尺度信息,但過大的擴張率會影響圖像邊緣特征的提取以及局部特征之間的關聯,從而產生大尺度目標語義分割空洞現象[24],這將對農田無人機遙感影像中的大面積小麥倒伏的檢測精度造成較大影響。
2.2.2多頭自注意力模型
Transformer[25]中的多頭自注意力(Multi-head self-attention, MHSA)模塊因其可以捕獲數據的全局依賴性,能夠表示數據之間更豐富的聯系,而受到廣泛關注。在MHSA模塊中對Q、K、V(V為值向量,Q為查詢向量、K為鍵向量)進行自注意力變換,這個過程獨立重復h次(h為MHSA模塊中的頭數),最后將h次比例點積注意力的結果進行拼接,再進行一次線性變換得到MHSA模塊的最終輸出。其本質就是多個獨立的注意力計算然后再集成,每一個注意力機制函數只負責最終輸出序列中一個子空間。
2.2.3改進的DeepLab v3+模型
鑒于MHSA復雜度較高,本文在低分辨率的高層語義特征上增加MHSA。首先,將DeepLab v3+中ResNet[24]骨干網絡的C5層用多頭自注意力模塊代替,減輕骨干網絡運算負擔。其次,在高層特征上使用全局自注意力建立小麥倒伏特征的全局依賴關系,有效克服空洞卷積造成的遠距離獲取信息相關性弱和ASPP結構中過大擴張率對局部特征間關聯性的影響。圖6為提出的農田無人機遙感影像小麥倒伏識別深度語義分割模型結構。

圖6 改進的DeepLab v3+ 小麥倒伏檢測網絡結構圖Fig.6 Network structure diagram of improved DeepLab v3+ for wheat lodging detection
2.3.1訓練參數設置
運行硬件環境為Lenovo SystemX 3650 M5 服務器,搭載NVIDIA TITAN V 顯卡。操作系統為Ubuntu 16.04,采用Tensorflow深度學習框架構建網絡。為了驗證本文提出改進的DeepLab v3+網絡的有效性,將其與SegNet、PSPNet和DeepLab v3+等深度語義分割模型進行比較。訓練深度語義分割模型時,基于在公共數據集上得到的預訓練模型,在小麥倒伏數據集上進行遷移學習以訓練小麥倒伏識別模型。最終,將訓練好的模型在測試集上進行測試,計算模型準確度。所有模型均采用多項式衰減學習率調整策略,訓練100個周期。其中PSPNet的初始學習率為0.000 1,批處理尺寸為32,矩為0.9,權值退化率為0.000 01;SegNet、DeepLab v3+以及改進的DeepLab v3+初始學習率為0.01,批處理尺寸為32,矩為0.9,權值退化率為0.000 1。
2.3.2評價指標
采用平均像素精度和均交并比作為分類結果評價指標,定量分析模型的分類性能。設有k+1個類,令nij表示第i類被預測為第j類的像素數量。即nii表示預測準確的像素數量,而nij和nji分別表示假正和假負預測的數量。
像素精度(Pixel accuracy, PA)為正確分類像素數量與總像素數量之比,表示正確分類像素占總像素的比值。
平均像素精度(Mean pixel accuracy, mPA)為首先計算標簽中每一類目標被正確分類的像素數量與標簽中該類像素數量的比值,最后對所有類求平均值。
均交并比(Mean intersection over union, mIoU)為語義分割的標準度量。首先以標簽中每一類目標被正確分類的像素數量除以標簽和預測圖像中該類像素數量并集,最后對所有類求平均值。均交并比表示每個類上預測值與真實值兩個集合的交集和并集之比。
為了指導小麥倒伏災害鑒定評價,定義倒伏比例(Lodging ratio, LR)評估育種小區小麥倒伏程度,計算式為
式中M——育種小區圖像總像素數量
N——倒伏小麥的像素數量
4種深度語義分割方法的試驗結果如表1所示。圖7以13號育種小區為例,顯示了4種深度語義分割方法在多生長階段小麥倒伏測試集上的檢測效果。由圖表可見,DeepLab v3+相較于SegNet和PSPNet表現出更好的性能,而改進的DeepLab v3+模型則對應著最高的mPA和mIoU,其檢測效果最優。

表1 無人機遙感影像小麥倒伏檢測結果Tab.1 Comparison of wheat lodging detection results from UAV remote sensing images

圖7 4種深度語義分割模型對13號育種小區小麥倒伏的檢測效果比較Fig.7 Comparison of detection effects of four deep semantic segmentation models on wheat lodging in No.13 breeding plot
3.2.1不同深度語義分割模型
由表1和圖7可知,SegNet灌漿期和成熟期的mPA僅有67.64%和78.31%,并且存在嚴重的誤檢問題,不適用于小麥倒伏檢測任務。PSPNet在灌漿期和成熟期的mPA分別為85.55%和87.04%,精度也不高,且結果存在嚴重的空洞,這一問題在小麥灌漿期尤為突出。相比之下DeepLab v3+檢測結果較為精細,對于小麥倒伏邊緣及零散倒伏區域等細節方面表現出更好的性能,mPA在灌漿期和成熟期分別比PSPNet高5.72、5.58個百分點,但空洞問題也不容忽視。而改進的DeepLab v3+網絡表現出更高的檢測精度和更好的檢測效果,在兩個生長階段mPA和mIoU指標均為最高,灌漿期mPA和mIoU分別為93.09%和87.54%,成熟期mPA和mIoU分別為93.36%和87.49%,誤識別區域以及空洞問題較少。表明提出的基于多頭自注意力的DeepLab v3+對小麥倒伏有更好的特征提取能力,并具有較好的泛化性能,在灌漿期和成熟期效果均最佳。
3.2.2不同注意力模塊的DeepLab v3+模型
為了驗證提出的基于多頭自注意力DeepLab v3+捕獲小麥倒伏特征的能力,表2為在DeepLab v3+模型中添加不同注意力機制的試驗結果比較。其中,CBAM[26]是一種用于前饋卷積神經網絡的簡單而有效的注意力模塊,SimAM[27]是一種無需額外參數為特征圖推導出3D注意力權值的簡單有效的注意力模塊。可以看出,在DeepLab v3+模型中添加各種注意力機制后,mPA和mIoU均有提升,但使用多頭自注意力模塊相較于原DeepLab v3+模型灌漿期和成熟期的mPA分別提升了1.82、0.74個百分點,mIoU分別提升了2.49、0.95個百分點,提升效果最為明顯。

表2 不同注意力機制的小麥倒伏檢測結果Tab.2 Comparison of wheat lodging detection results with different attention mechanisms %
3.2.3灌漿期和成熟期小麥倒伏識別結果分析
由表1可知,成熟期小麥倒伏識別的mPA均優于灌漿期小麥倒伏識別的mPA,本文提出的方法在成熟期對小麥倒伏的識別精度達到93.36%,比灌漿期高了0.27個百分點。由圖7可見,不同生長階段倒伏小麥與正常小麥的紋理特征對比明顯,而就顏色特征而言,灌漿期倒伏小麥中心部分呈淺綠色,與正常小麥對比明顯,但邊緣部分顏色與正常小麥接近,成熟期倒伏小麥中心部分呈黃綠色,邊緣部分呈白黃色,與正常小麥均對比明顯。因此,算法更容易提取成熟期倒伏小麥零散區域以及邊緣區域的特征,從而達到比灌漿期更好的識別精度。總體上,本文方法在灌漿期和成熟期預測結果較為接近,顯示了其良好的泛化性能。
表3為測試集4個育種小區倒伏比例的預測結果。可以看出,在灌漿期小麥倒伏預測結果大都比真實結果偏低,識別的平均誤差為1.94%,在成熟期小麥倒伏預測結果大都比真實結果偏高,識別的平均誤差為2.27%, 總體預測誤差均較小,驗證了本文方法預測小麥倒伏比例的可靠性。

表3 測試集育種小區倒伏識別結果Tab.3 Analysis of lodging identification results of breeding plots in test set %
(1)基于多頭自注意力的DeepLab v3+模型的識別精度優于SegNet、PSPNet和DeepLab v3+模型,與基于CBAM和SimAM注意力的DeepLab v3+相比,提出方法也取得更好的識別結果,驗證了其在解譯農田小麥倒伏遙感影像方面的有效性。
(2)改進的DeepLab v3+模型在灌漿期和成熟期兩個生長階段的倒伏小麥識別精度為93.09%和93.36%,表明提出的方法能夠從不同生育期的小麥遙感影像中精準地識別倒伏區域。