郭偉,高春鳳,喬紅波,李成偉,張楓,張慧
(河南農業大學信息與管理科學學院,鄭州市,450046)
棉花是中國最主要的經濟作物之一,主要分布在新疆、長江流域和黃河流域[1],而新疆作為我國棉花的主要生產基地,在出單總量、出口率等方面已經連續27年保持全國第一[2]。棉葉螨俗稱紅蜘蛛,是棉花生產過程中的主要害蟲之一,棉葉螨的大規模爆發對棉花的產量、質量危害極大[3],因此實施大面積的快速精準監測是進行有效防控的關鍵措施。葉綠素主要用于植物的光合作用,葉綠素含量與植被營養脅迫、農作物生長及發育狀況、植物病蟲害等密切相關,是農作物長勢監測的重要指標[4-7]。Marenco等[8]通過研究發現使用SPAD葉綠素儀測量葉綠素含量精度很高,表明可使用SPAD來代替葉綠素含量。
傳統病蟲害監測主要依靠人工調查,影響蟲情監測的及時性和精準性,導致長期大量濫用農藥防治,增加害蟲耐藥性、污染環境[9-10]。近年來,遙感技術以快速、無損等優勢廣泛應用于作物的生理化參數反演[11]。衛星遙感監測雖然具有覆蓋面廣、數據易獲取等優勢,但存在時域長、光譜分辨率和空間分辨率相對較低、易受大氣干擾等問題,其反演精度不足以滿足精準農業的要求[12]。無人機遙感技術憑借價格低廉、機動靈活、不受衛星過境時間和天氣影響、時空分辨率高等優勢而逐漸成為農情監測的又一重要手段[13]。王麗愛等[14-17]基于無人機多光譜影像,計算多光譜植被指數,估測小麥葉片、番茄冠層、小麥冠層和玉米冠層的葉綠素含量,均達到了較好的估算結果。田明璐等[18]利用無人機高光譜數據構建棉花葉片SPAD反演模型,研究發現采用偏最小二乘回歸(Partial Least Squares Regression,PLSR)模型反演精度最高。無人機搭載高光譜、多光譜和激光雷達傳感器設備可快速、便捷、高效地用于作物生理化參數反演和病蟲害監測,但由于傳感器價格昂貴,并且后續數據處理相對復雜,使無人機遙感平臺的發展受到一定制約。數碼相機因具有智能化、價格低、空間分辨率高等特點,使得無人機遙感數據獲取平臺得到快速的發展。孟沌超等[19]利用無人機可見光影像估測玉米葉綠素相對含量,研究發現基于植被指數+紋理特征作為輸入的PLSR模型效果最優。陳向東等[20]將可見光植被指數閾值法與直方圖相結合的新方法用于夏季玉米的植被覆蓋度提取,發現利用過綠指數(Excess Green,EXG)來描述植被覆蓋度效果最佳。戴建國等[21]通過無人機可見光影像,建立農作物分類模型,結果表明支持向量機分類方法精度最高。吳智超等[22]利用顏色轉換空間HSI(H-A法)從無人機數碼影像中快速提取馬鈴薯覆蓋度,精度較高。劉帥兵等[23]基于無人機數碼影像采用多元線性回歸算法,結果表明整體提取試驗小區作物信息是反演冬小麥葉氮含量的最佳方式。
無人機遙感已經廣泛應用于作物生化指標反演,但利用可見光影像進行作物病蟲害的空間監測及嚴重度估測研究較少。本研究旨在利用無人機數碼影像提取多種可見光植被指數,構建基于偏最小二乘回歸(PLSR)、BP神經網絡(Back Propagation Neural Network,BPNN)和隨機森林(Random Forest,RF)的棉花冠層葉片SPAD值遙感估測模型,并研究棉葉螨嚴重度與棉花冠層葉片SPAD值之間的關系,建立棉葉螨嚴重度估測模型,繪制試驗區棉葉螨嚴重度空間分布圖,以便為新疆棉花種植的高產和病蟲害防治提供技術支持,實現大區域棉田棉葉螨的快速高效監測。
研究區位于新疆維吾爾自治區庫爾勒市的中國農業科學院植物保護研究所試驗區,地處北緯41°44′58″~41°45′0″,東經85°48′23″~85°48′27″,庫爾勒市位于歐亞大陸和新疆中部,塔里木盆地東北邊緣,氣候類型屬于溫帶大陸性干旱氣候,年日照時間充足、晝夜溫差大、年積溫高、降水量低[24],為棉花生長提供了適宜的自然條件,是新疆地區的重要產棉區之一,植棉面積占耕地面積的70%以上。試驗區供試棉花品種為中棉所49,進行田間標準化管理,田間自然發生棉葉螨脅迫行為,期間不做人為干預。
1.2.1 無人機遙感數據獲取與預處理
無人機平臺為大疆Phantom 3 Pro四旋翼無人機,配備Sonny Exmor R CMOS影像傳感器。無人機及傳感器參數如表1所示。

表1 Phantom 3 Pro飛行平臺的技術參數Tab. 1 Technical parameters of Phantom 3 Pro flight platform
無人機數碼影像數據于2020年7月29日、2020年8月3日、2020年8月8日、2020年8月13日、2020年8月18日棉花蕾期棉葉螨較嚴重時期獲取,共飛行5次,每次飛行間隔5天,所有飛行均在晴朗、無風、無云的天氣進行,飛行時間為上午12:00~14:00,獲得的影像基本不受大氣因素的影響,5次飛行的飛行航線和參數相同。試驗區在地面設置9個地面控制點(GCP),并采用納米級全球定位系統(GPS)記錄GCP經緯度,為后期正射校正做參考。使用Altizure軟件進行航線規劃,飛行航高30 m,航行速度6 m/s,航向重疊度為80%,旁向重疊度為60%,拍攝時云臺相機保持垂直向下,穩定拍攝。采用Pix4Dmapper軟件拼接無人機可見光影像,并導入GCP定位信息,最終獲取數字正射影像(DOM)。
1.2.2 地面數據采集
依據新疆棉田的實際情況,棉葉螨發生為害后與國家標準存在一定差異,本文將棉葉螨嚴重度等級[25]重新劃分,如表2所示。

表2 棉葉螨嚴重度劃分標準Tab. 2 Classification standard of cotton spider mite severity
地面調查數據的采集與無人機的飛行工作同步開展。本次試驗設置5天一期,每期采集80個樣點,共400個樣點。使用天寶Trimble GeoExplorer 6000 Series設備記錄樣點的GPS信息,其誤差在2 cm左右。在研究區內均勻布設采樣點,覆蓋整個研究地塊。采用SPAD-502型手持式葉綠素儀同步測量棉花冠層葉片SPAD值,在每個調查樣點中心范圍內選取周圍5株,每株隨機選取冠層5個棉葉測量SPAD值,在不同的部位測量3次并求平均值,最終取5個葉片的平均值作為該樣點的SPAD值,同時記錄樣點螨害嚴重度信息。5個時期共測SPAD數據和螨害調查數據400個,最終篩選保留200個棉花冠層葉片SPAD值數據和螨害調查數據。
將預處理后的DOM影像歸一化,R、G和B表示紅、綠和藍通道的DN值,r、g和b表示歸一化后的可見光波段[26]。
(1)
(2)
(3)
除利用數碼影像的3個原始波段和3個歸一化波段外,結合以往農作物病蟲害遙感監測研究成果選擇常用的14個植被指數作為棉葉螨害監測的初選特征因子。表3為20個植被指數的名稱、計算公式和參考文獻。

表3 植被指數Tab. 3 Vegetation index
1.4.1 特征選取算法
ReliefF算法是一種特征權重算法,權重越大,表示該植被指數對棉花冠層葉片SPAD值估測的貢獻度越高,反之亦然。Pearson相關系數表征植被指數與棉花冠層葉片SPAD值的線性相關關系。相關系數的絕對值越大,說明該植被指數與棉花冠層葉片SPAD相關性越強。本文采用ReliefF-Pearson方法計算各植被指數與棉花冠層葉片SPAD值的權重以及相關性,消除冗余特征來提高模型的準確性,并減少其計算復雜度。
1.4.2 建模方法
1) PLSR模型通過最小化誤差的平方和找到一組數據的最佳函數匹配,包含多元線性回歸、典型相關分析與主成分分析,該方法能夠很好地解決選取的自變量存在共線性的問題,并且在減少變量個數的同時,能夠在最大程度上揭示出反映棉花冠層葉片SPAD值變化的主控因子,使建立的棉花冠層葉片SPAD遙感估測模型具有更好的魯棒性。
2) BPNN模型利用誤差逆傳播算法訓練多層前饋網絡,采用最速下降法的學習規則,通過反向傳播不斷地調整網絡的權值和閾值,使誤差平方和達到最小。BP神經網絡拓撲結構為輸入層、隱含層和輸出層,本研究使用的BPNN模型的網絡訓練函數設置為“trainlm”,傳遞函數設置為“tansig”,訓練次數設置為10 000,學習速率為0.001,訓練目標最小誤差為0.000 01。BP神經網絡具有較強的非線性映射能力、高度自學習和自適應的能力和泛化容錯能力。
(4)
(5)
式中:Sj——第j個神經元的凈輸入值;
m——輸入層節點數目;
wij——節點i和節點j之間的權值;
xi——節點i的值;
bj——節點j的閥值;
E(i)——單個樣本的誤差函數;
n——輸出層節點數目;
dj——第j個神經元的期望輸出;
yj——第j個神經元的輸出。
3) RF模型采用隨機的方式創建一個森林,其中包含多個決策樹,且彼此之間無關聯性。采用自助(bootstrap)法重采樣技術,在S個原始樣本中,抽取自助樣本集S1個,每次抽取后放回,構建S1棵回歸樹,其余樣本作為S1個袋外數據集;在訓練決策樹節點時,從全部的p個特征中,隨機抽取k個(其中k
本文在使用RF模型時通過選取的自變量個數和模型參數的調整,將決策樹數量和分割節點隨機變量數設為1 000和2。隨機森林算法無需考慮選取的變量間的多重共線性問題,也不必進行變量選擇,對離群值不敏感,學習過程快。
1.4.3 精度評估指標
使用決定系數R2和均方根誤差RMSE評估棉花冠層葉片SPAD值遙感估測模型的準確性。
(6)
(7)
式中:n——數據量;
yi——實測SPAD值;


上述兩種模型精度驗證指標中,R2的值越大,說明模型的擬合度越好,RMSE的值越小,說明模型的精度越高,模型的預測性能越好。
模型構建時篩選出對棉花冠層葉片SPAD值較為敏感的植被指數,可以提高模型精度,也可以有效去除不相關變量和冗余變量,提升模型的魯棒性。基于ReliefF算法的20種植被指數的特征權重排列情況如圖1所示。由圖1可以看出植被指數G-B權重最高,其次分別為GBRI、NGBDI和b。為增加所選植被指數的可靠性,將20種植被指數與棉花冠層葉片SPAD值作Pearson相關性分析,表4列出了各植被指數與棉花冠層葉片SPAD值的相關性分析結果,其中GBRI與SPAD值的相關性最高,達到0.789,G-B、GBRI、NGBDI與棉花冠層葉片SPAD值顯著相關(r>0.7)。綜合分析兩種篩選變量算法的結果,最終選取G-B、GBRI、NGBDI作為最終特征參與模型構建。

圖1 基于ReliefF算法的植被指數的特征權值Fig. 1 Characteristic weights of vegetation index based on ReliefF algorithm
基于篩選保留的200個棉花冠層葉片SPAD值數據和相對應的螨害嚴重度數據,對不同棉葉螨嚴重度的棉花冠層葉片SPAD值求取平均值,分析不同棉葉螨嚴重度的棉花冠層葉片SPAD值的變化情況。結果見圖2,受害棉株的棉花冠層葉片SPAD值受螨害等級的影響,并且隨著螨害嚴重度的增加,棉花冠層SPAD平均值逐漸下降,棉花冠層SPAD值與棉株螨害嚴重度呈明顯的負相關關系,R2=0.939 5,且4個嚴重度間的棉花冠層葉片SPAD值無交叉區間,結果表明可以利用棉花冠層葉片SPAD值的變化來監測棉葉螨的嚴重度。

表4 植被指數與棉花冠層葉片SPAD值的相關性分析結果Tab. 4 Correlation analysis between vegetation index and SPAD value of cotton canopy leaves

圖2 棉葉螨嚴重度與棉花冠層葉片SPAD值的關系Fig. 2 Relationship between severity of cotton spider mite and SPAD value of cotton canopy leaves
通過RelieF-Pearson算法得出20種植被指數反映棉花冠層葉片SPAD值的權重以及與棉花冠層葉片SPAD值的相關性分析結果,選定其中3個植被指數G-B、NGBDI、BGRI為自變量,以棉花冠層葉片SPAD值為因變量,構建PLSR、BPNN、RF棉花冠層葉片SPAD值估測回歸模型,將最終保留的200個棉花冠層葉片SPAD值數據劃分為140個建模集數據和60個驗證集數據,表5列出3種模型的分析結果,3種棉花冠層葉片SPAD值估測模型中,SPAD估測值與SPAD實測值均表現為極顯著相關,訓練集和驗證集的R2和RMSE都達到預期要求。

表5 各個棉花冠層葉片SPAD估測模型分析結果Tab. 5 Analysis results of SPAD estimation model of cotton canopy leaves
圖3為各個模型的棉花冠層葉片SPAD值的估測回歸結果。綜合考慮建模集和驗證集的R2和RMSE,RF模型效果最佳,表明利用RF的SPAD估測模型能間接反映出棉葉螨嚴重度。

(a) PLSR模型

(b) BPNN模型

(c) RF模型圖3 各個棉花冠層葉片SPAD值估測模型驗證結果散點圖Fig. 3 Scatter diagram of SPAD value estimation model verification results of cotton canopy leaves
利用研究區2020年7月29日、2020年8月3日、2020年8月8日、2020年8月13日和2020年8月18日五期無人機數碼影像為底圖,以單個像元為基本處理單元,采用ReliefF-Pearson方法篩選出的G-B、NGBDI、BGRI三個可見光植被指數作為特征集,輸入隨機森林模型,構建棉花冠層葉片SPAD遙感估測模型,得到研究區棉花冠層SPAD空間分布情況,最終得到研究區棉葉螨嚴重度空間分布圖如圖4所示。由圖4可以看出,隨時間的推移,螨害為害區域明顯增加且為害程度逐漸加深,通過實際調查數據分析,本次研究較真實地反映出螨害分布的實際情況,通過五期影像數據和實際調查數據,本研究實現了棉葉螨為害情況及嚴重度的動態監測,為利用無人機遙感來監測棉葉螨為害情況提供了一種可行方法。

(a)

(b)

(c)

(d)

(e)圖4 五期影像的棉葉螨嚴重度空間分布圖Fig. 4 Spatial distribution map of cotton spider mite severity in phase V images
為快速、實時、準確地了解研究區棉田棉葉螨的發生情況,本研究利用無人機數碼影像的3種可見光植被指數,使用隨機森林方法構建了不同棉葉螨嚴重度的棉花冠層葉片SPAD值的遙感估測模型和棉葉螨嚴重度遙感估測模型,建立了一種快速動態的棉葉螨嚴重度監測方法。
1) 將20種可見光植被指數與棉花冠層葉片SPAD值進行相關性分析,結果表明植被指數G-B、BGRI和NGBDI與棉花冠層葉片SPAD值達到極顯著相關水平(r>0.7)。
2) 基于選擇的140個訓練集數據分別建立棉花冠層葉片SPAD值遙感估測模型,剩余的60個驗證集數據用于驗證各個棉花冠層葉片SPAD值估測模型,結果顯示,以G-B、BGRI和NGBDI作為輸入的RF模型精度最優,建模集的R2和RMSE分別為0.86、1.66,驗證集的R2和RMSE分別為0.74、2.13。該模型可實現棉田棉葉螨的快速有效監測。
3) 隨著棉葉螨嚴重度的增加,棉花冠層葉片SPAD值逐漸下降,棉葉螨嚴重度和棉花冠層葉片SPAD值之間存在極顯著的負相關關系,且4個為害嚴重度間棉花冠層葉片SPAD值無交叉區間,表明可以通過監測棉花冠層葉片SPAD值的變化來間接監測棉葉螨為害情況。
4) 以多期無人機數碼影像為數據源,采用最佳模型隨機森林模型進行研究區棉花冠層葉片SPAD值估測,可間接實現對螨害嚴重度的空間動態監測。
5) 由于技術不成熟和實測調查數據的限制,采集數據的好壞會直接影響到估測模型的精度,本次試驗也有很多不足的地方,首先研究區域較為單一,僅限于新疆庫爾勒市的中國農業科學院植物保護研究所試驗區,且對單一棉花品種的棉葉螨為害情況進行了研究,缺乏普適性,還需要針對不同地區,更多的棉花品種以及不同的作物品種(小麥、玉米、水稻等)進行驗證。另外僅比較了3種機器學習方法來估測棉花冠層葉片SPAD值從而實現棉花螨害監測,而深度學習在植物病蟲害分類和監測等領域應用前景更為廣闊,下一步需要進一步探索深度學習等方法在植物病蟲害及植物生長監測方面的潛力。