趙曉偉, 黃楊, 汪永強, 儲鼎
(1.黑龍江省測繪科學研究所,哈爾濱 150081; 2.中國科學院東北地理與農業生態研究所,長春 130102)
玉米產量取決于多種因素,包括遺傳因素、生長環境、播種方式等。玉米的出苗情況同樣是影響玉米產量的關鍵因素,對出苗情況的研究能夠提早預防因土地缺苗而造成的產量損失[1]。出苗情況的計算主要依賴于苗株數的估算,出苗情況的高低是作物高產、穩產的前提條件,缺苗直接影響作物的品質產量,所以對作物的長勢評估可以影響農田施肥和管理[2]。因為無人機(unmanned aerial vehicles,UAV)遙感技術的快速發展,UAV技術在農業科學中的應用越來越廣泛,提取農田信息的方式愈加成熟、多樣、靈活[3]。UAV技術不僅可以節約人工實地檢查出苗情況的人力物力成本,而且減輕了人工對作物的損害,也可以為大范圍內的出苗信息獲取提供優質服務[4]。
目前,國內外關于UAV影像在植被識別和分類方面開展大量研究。Mitch等[5]使用UAV可見光影像,基于植被顏色指數及紋理合理地分類了植被類型,證明了顏色指數對提取植被信息的可行性; 丁雷龍等[6]使用歸一化綠-紅差值指數(normalized green-red difference index,NGRDI)、過綠指數(excess green index,ExG)、過綠減過紅指數(excess green minus excess red index,ExG-ExR)和綠葉指數(green leaf index,GLI)等4種RGB顏色指數,識別了植被區域和非植被區,并對幾種顏色指數做出了適用性分析和因素干擾性評價,得出4 種顏色指數識別植被的精度均超過90%的結論; 汪小欽等[7]基于可見光波段UAV影像,提出了可見光波段差異植被指數對植被信息提取的精度可達 90%以上。但是對于哪種顏色指數更適用于分割類似于玉米農作物和土壤背景的相關研究仍很薄弱,依然沒有統一的定論。
隨著深度學習的發展,遙感技術與機器學習方法相結合的方式,能夠實現農作物長勢的快速高效評估,逐漸替代了原始人工評估出苗情況的笨重方法,已經在作物識別和長勢監測中展現優勢[8]。Zheng等[9]綜合了深度學習算法和UAV多光譜遙感手段,分別構建了支持向量機(support vector machine,SVM)和支持向量回歸(support vector vegression,SVR)的棉苗株數估算模型,對比了2種模型的精度,為估測棉苗株數提供了有價值的參考; 戴建國等[10]同樣利用UAV可見光遙感影像和形態學特征參數,構建了SVR模型,提取出棉花苗情信息。但是二者研究的作物都是棉花,棉花和玉米無論從形態還是耕種地點、方式、季節均差異較大,SVR模型是否仍然適用于估算玉米株數,值得商榷。劉帥兵等[11]雖然基于UAV數據通過顏色變換將玉米與土壤分離,通過Harris,Moravec和Fast角點檢測算法有效地識別出了玉米株數,但是未結合機器學習的算法,且僅僅適用于實驗小區內,是否適用于東北大面積的玉米耕地仍然未知。
針對上述不足,本文基于UAV多光譜數據,計算不同顏色指數,利用OTSU閾值分割算法,找到最佳顏色指數提取苗對象。組合不同數量的形態學特征參數,找到最佳的特征參數組合。結合SVR模型,預測出玉米苗數,統計出苗情況。在東北大面積種植玉米的條件下,展示了UAV多光譜數據對玉米苗期評估長勢的適用性,為提高田間尺度的植被精細化管理提供了保障。
研究區位于吉林省長春市開安鎮,地理坐標為E125°5′~125°8′,N44°30′~44°50′,地處松遼平原腹地,屬于大陸性季風氣候區,主要糧食作物為玉米,屬于農業發達地區。該地區的農業規模化和機械化程度較高,是開展智慧農業、UAV遙感技術的良好基地,能夠滿足農業及遙感領域科學研究的需求。該區域采用機械播種方式,播種間隔為0.2 m,壟距約0.6 m,圖1為在研究區裁剪后的多光譜影像,紅色矩形框為人工測量苗株的樣方。

圖1 研究區及監測樣方
UAV多光譜影像于2020年5月28日拍攝,拍攝時天氣情況良好,無風少云。UAV平臺為大疆精靈4,水平飛行速度為3 m/s,飛行高度為30 m,航向重疊為60%,旁向重疊為60%,本次試驗共采集260幅玉米苗多光譜影像,數據為 24位真彩色jpeg格式。使用PhotoScan軟件對影像進行拼接,然后將影像進行裁剪,去除邊緣空洞部分和異常值,得到如圖1所示的影像數據,拼接后的UAV影像長約150 m,寬約120 m,空間分辨率為0.5 cm。
在研究區均勻選取28個樣方,如圖1所示的紅色方形框,用來調查樣方中玉米苗的株數。監測樣方為3 m×3 m的方形,方向分別為順壟和垂直壟方向。研究區的播種壟寬為0.6 m,所以盡量保證垂直壟方向能夠包含5根壟,順壟方向的株距為0.2 m,所以理論上每個樣方的苗數為75株。因整幅UAV影像覆蓋面積較大,難于處理,本研究按照不同尺度的監測單元對整幅影像做分割處理,分割成漁網狀,分別對每個監測網格內的苗株數做預測。監測單元邊長為0.5 m,1 m,2 m,3 m,4 m,5 m,6 m,7 m的正方形。3 m×3 m監測單元內的株樹為實地量測樣方,因UAV影像的分辨率可達0.5 cm,所以在監測樣方尺度下,玉米苗清晰可見,通過目視判讀的方法進行估算,同時用實測樣方內株數對目視判讀的株數做驗證,其他尺度內的真實株數采用目視解譯的方法進行估算。
如何將玉米苗從與土壤背景中提取出來是獲取玉米苗對象的關鍵。本研究的UAV影像數據主要由玉米苗和土壤構成,褐色的為土壤,綠色的為玉米苗。因此可以通過線性組合紅(R)、綠(G)和藍(B)3 種顏色成分使綠色植被與褐色土壤的差異最大化,有效分離玉米苗與土壤背景[12-13]。此外,合理的選擇顏色指數對UAV影像的精準分割十分重要[14]。本研究初步選取的顏色指數為ExG、綠-藍差值指數(green-blue difference index,GBDI)、ExG-ExR,NGRDI和GLI[15-16]等5個指數作為候選顏色指數。通過特征分析和SVR模型精度的結果對比得出最優顏色指數。首先將UAV影像數據轉成雙精度(double)類型顏色參數,分別將R,G,B像素值除以255做歸一化處理,得到取值范圍為0~1之間的r,g,b值。然后計算5個顏色指數,計算公式分別為:
ExG=2g-r-b,
(1)
GBNI=g-b,
(2)
ExG-ExR=3g-2.4r-b,
(3)
NGRDI=(g-b)/(g+b),
(4)
GLI=(2g-r-b)/(2g+r+b)。
(5)
通過5種顏色指數實現閾值分割玉米苗與土壤背景。閾值的精準確定是從土壤背景中分離出玉米苗對象的關鍵因素,最大類間方差法(OTSU)作為閾值分割方法,比其他圖像分割方法更加直觀、簡單[17-18],本研究選取OTSU算法可以到達自動確定閾值的目的。OTSU[19]算法是一種自適應的閾值提取方法,利用的圖像灰度特性能夠找到目標對象和背景類間方差S的最大值,最佳閾值即為S最大時對應的值。具體算法如下: 首先,分別得到玉米苗和土壤背景的像元比例(閾值為T)w0和w1、平均灰度g0和g1; 其次,計算圖像總平均灰度gm,計算二者的方差S,公式分別為:
gm=w0g0+w1g1,
(6)
S=w0(g0-gm)+w1(g1-gm)
;
(7)
最后,求得使S最大的閾值T,即為最佳閾值。


以圖2為例,該樣方點內共有37個苗對象。紅色矩形框為各個苗對象的外接矩形,可計算出各個苗對象外接矩形的長、寬、周長、面積等特征參數。
觀察UAV影像數據發現,研究區內的壟間雜草容易被劃分為連通區域。為去除雜草,本研究首先將獲取的玉米影像旋轉為田壟豎直的方向,結合特征參數提取苗對象外接矩形的中心點坐標,導入ArcMap軟件中,給定投影,生成矢量點數據。對點數據做緩沖區分析,因播種株距為0.2 m,所以緩沖距離設置為0.2 m。生成緩沖區后,順壟方向連接相鄰點,生成線矢量文件,將其當作壟的中心線。判斷各點距離最近中心線的距離,如果距離大于0.2 m,被認為為雜草,該方法能有效去除壟間面積較大的雜草,如圖3所示,紅色矩形框內為雜草。
在計算出特征參數后,下一步是將特征參數和人工實際測量苗數做擬合,但是如何選擇特征參數以及特征參數數量是提高擬合精度的關鍵。本研究采用深度學習算法中的SVM試圖解決該問題。
SVM[20-21]被廣泛應用于機器學習、人工智能、大數據等領域,其本身是解決二分類問題,而SVR是SVM的重要應用。SVR追求的最優超平面能夠讓所有樣本點和超平面(函數)的“距離”最小。而回歸的本質是找到數據的內在關系,對于SVR而言,不管數據有多少種類別,SVR都能求出超平面,擬合數據,建立模型,給定輸入參數,就能夠求得一個新值[22]。因此,本研究計算出各個樣方點內的所有苗對象特征參數,結合SVR來估算類似于圖2(右)所標記的所有苗對象包含的植株數。將二值圖像中所有苗對象(單株和連通區域)的特征參數作為SVR模型的分類變量。并且根據原始實地人工測量苗數,統計出相應苗對象的植株數量作為模型識別結果,統計共計1 003條樣本數據。70%樣本點用于模型訓練,30%用于模型測試。
訓練過程中采用對數據進行歸一化處理,采用默認的RBF核函數。首先,利用交叉驗證方法尋找懲罰因子c,c的大小決定模型是否過擬合或欠擬合; 其次,尋找RBF核函數中的方差s,s的大小決定支持向量的多少; 再用最佳的參數訓練模型; 最后,對數據做反歸一化處理。
在本研究中,研究區選取28幅樣方地點圖像,每個樣方為9 m2,水平方向為平行壟,長度為3 m,垂直方向為垂直壟,長度為3 m。在ArcMap軟件中打開帶投影的UAV數據,找到對應的樣方坐標位置,在影像數據上量測對應的樣方面積,截取圖像中玉米苗植株、土壤的樣本對象。然后進行顏色指數計算,采用OTSU閾值分割方法,分別計算5種顏色指數下,每個指數分割玉米苗與土壤背景的最佳閾值,得到5種顏色指數下玉米苗與土壤背景的二值化影像數據。以監測樣方23為例,圖4為該樣方不同指數下的數據結果對比。


(a) 原始影像(b) ExG二值化影像(c) NGRDI二值化影像


(d) GBDI二值化影像(e) GLI二值化影像(f) ExG-ExR二值化影像
各個指數的數據影像通過腐蝕、膨脹及形態學的開運算、閉運算等操作步驟,并剔除雜草噪聲后效果如圖5所示。


(a) 原始二值化(b) 形態學操作(c) 緩沖區方法去雜草操作
如圖5(a)所示,紅色矩形框內為玉米苗植株周邊的噪聲,面積較小,基于形態學操作可以剔除。但是對于面積較大的雜草,如圖5(b)紅色圓形框內的雜草,該操作去除雜草的效果不佳,將雜草作為玉米苗的錯誤識別會降低出苗情況計算的精度。而本文去除雜草噪聲的效果如圖5(c)所示,可以看出該方法能夠有效剔除壟溝周邊較大面積的雜草,提高識別玉米苗對象的精度。
本研究基于5種指數,隨機選取所有樣方點70%的數據作為訓練集,30%數據作為測試集。分別對各個指數,所有特征參數進行SVR模型測試。如圖6所示為基于ExG指數估算株數的訓練集和測試集預測結果,綜合對比各個指數SVR模型的預測精度(表1)。


(a) 訓練集(b) 測試集
從圖6可以看出,基于ExG指數估算株數無論在訓練集和測試集,樣本點主要集中在1株,側面證明了本實驗田的玉米苗以單株植被為主的特點,且整體偏差較小。樣本點隨著株數的增大而減少,說明本實驗田玉米苗的連通區域多以2株為主。綜合表1來看,SVR模型估算值對真實值的模型擬合精度都較高,R2均在0.81以上。總體相對誤差較小,RMSE均在0.02以下。表1可以看出,基于ExG指數的SVR模型精度最高,本研究采用該指數進行下一步研究。

表1 各個指數訓練和測試精度
由3.2節的結果可知,在所有特征參數參與計算的前提下,基于ExG指數的SVR模型精度最高,但R2都沒有超過0.9,精度仍然沒有達到預期的效果。而正確選擇特征參數會影響模型精度[21],因此評估各特征參數的重要性,優化選擇特征集,能夠達到簡化模型、降低SVR的過擬合風險,提高模型精度的目的。本研究將選用相比其他指數精度較高的ExG指數,對所有樣方內苗對象的特征參數和玉米苗實測株數做Pearson系數[4]的相關性分析,將Pearson系數大于0.7的特征參數(圖7),作為輸入模型的候選參數。逐漸增加特征參數的個數,采用數學理論上的組合方式,選擇最優的特征參數以及特征參數的數量,最終作為輸入變量進行建模。

圖7 特征參數實測株數的Pearson系數
如圖7所示,本研究最優參數共有7個,分別是面積A、周長B、矩形長D、矩形面積F、矩形周長G、橢圓長軸長度H、形狀因子Q,共有127個組合方式,將不同的組合方式分別作為基于ExG指數下SVR模型的輸入參數。計算玉米苗訓練集和測試集實測和預測苗數的擬合精度如表2所示。

表2 特征參數組合
從表2中可以看出,經過選擇后的特征參數組合精度明顯有所改善,其中,最優組合基本都包括多邊形面積A參數。這也側面印證了該參數對模型的重要性很大,對精度評價的所占比重較大。而且在選擇特征參數時并不是參數選擇得越多,模型精度越高。針對本研究最佳的特征參數組合為6種特征參數: 面積A、周長B、矩形長D、矩形周長G、橢圓長軸長度H、形狀因子Q。過多或過少的參數都會使SVR模型過擬合或欠擬合,只有適當的組合特征參數才能使SVR模型精度最高。
本研究基于ExG指數,選取面積A、周長B、矩形長D、矩形周長G、橢圓長軸長度H、形狀因子Q等參數的組合方式構建SVR模型進行測試。將估算株數和實測株數的測試和訓練集做散點圖分析,結果如圖8所示,準確率為達到96.54%。整體上來看,SVR模型估算值對真實值的模型擬合精度較高,總體相對誤差更小。模型在訓練集和測試集中的R2相差不大,體現了基于UAV數據的SVM算法在玉米苗計算株數方面存在優勢。

圖8 實測株數和預測株數的比較分析
從圖8中可以看出,當玉米苗為單株植被時,更容易發生過高估計。該誤差可能是由玉米葉的不均勻性且玉米葉較大而導致冠層重疊,進行引起形態學特征誤差,容易將單株植被當作連通區域。當玉米苗為2株以上時,總體上呈過低估計,該誤差可能是因為連通區域各個玉米苗距離較近,所以各玉米苗的冠層重疊度高,容易被錯誤分割成數量較少的苗對象。
進一步分析模型識別的預測株數和實測株數,以確定SVR模型的適用性。按照1~7的順序,逐個統計出株數中被高估和低估的數量,統計結果如表3所示。從表3中可以看出,玉米苗數量為單株時,誤差最小,模型精度最高。隨著株數逐漸增大,誤差變大,精度變差。所以,該模型更適用于玉米苗長勢初期,植被冠層較小,連通區域較小的情況下,更能體現本模型的優越性。在1~3株的情況下,總體而言,誤差較小,估測苗數的準確性較高。所以只要在合理的UAV數據獲取苗對象數據的時間內,比如在玉米苗生長初期,幼苗多以單株為主,冠層覆蓋度不大,連通區域面積不大的情況下,模型具備一定的適用性,所以科學合理的UAV拍攝時間是十分重要的,同時也說明了模型在實際應用中有植被生長窗口期的局限性。

表3 實測株數和預測株數的過高過低估計
本研究對整幅UAV影像做分割處理操作,但是分割尺度的大小是否對精度有影響,研究做了進一步分析,圖9為不同尺度下監測單元的玉米苗對象識別效果。如圖9所示,0.5~4 m的分割尺度下,可以有效識別出玉米苗對象,且識別效果差距不明顯,如圖9中紅色橢圓形所示,識別的玉米苗對象隨著尺度變大,形狀并未改變,只是在相同的屏幕內形態由大變小。因此,在0.5~4 m的尺度下,基于SVR模型對苗株數估算的精度未受到影響,但是隨著監測單元尺度增大,識別效果逐漸變差。其中,如圖9中5~9 m尺度下的藍色位置所示,當監測單元尺度大于5 m后,一些長勢較差的幼苗無法識別,這勢必影響株數估算精度。綜上,考慮到實測樣方尺度為3 m,以及運算效率,本研究監測像元的尺度設置為3 m更為合理。同時,在研究區內隨機選取一個順壟方向20 m,垂直壟方向24 m的矩形地塊,將該塊地按照1 m×1.2 m的分辨率分割成多個小格子。基于SVR模型識別結果來計算該地塊的玉米苗株數,該區域如圖10(a)所示,基于SVR模型識別計算的玉米苗株數如圖10(b)所示。圖10(b)可直觀地顯示該區域玉米苗的出苗狀況,且小格子顏色代表玉米苗株數的高低,顏色越紅,代表出玉米苗株數越多。從圖10(b)可知,多數小格子填滿了該地塊的分辨率,玉米總體的玉米苗株數多集中在7株數以上、長勢較好。圖10(a)可以看出,有一塊無苗斷壟的空缺地,對比圖10(b),同區域內的小格子為深藍色,玉米苗株數為0,這可能是人為漏播所導致的結果。

圖9 不同尺度監測單元的苗對象識別效果


(a) 隨機矩形地塊(b) 矩形地塊玉米株數
本文基于UAV多光譜數據,通過對比不同顏色指數,借助OTSU閾值分割算法獲取玉米苗對象,確定最佳顏色指數的二值化苗對象。優化組合出形態學特征參數,確定了最佳特征參數組合。借助支持向量機回歸(SVR)模型,預測出玉米株數,統計了出苗情況。研究成果能夠在短時間內迅速、快捷、準確地得知玉米出苗情況和長勢趨勢。
ExG,GBDI,ExG-ExR,NGRDI和GLI等顏色指數均能用于UAV影像識別玉米,但是針對本研究區,基于ExG顏色指數的UAV影像識別玉米株數的精度最高。不同的特征參數組合會直接影響SVR模型的擬合精度,使SVR模型過擬合或欠擬合。針對本研究的最佳特征參數組合為6種特征參數: 面積A、周長B、矩形長D、矩形周長G、橢圓長軸長度H、形狀因子Q。該組合特征參數的SVR模型精度最高。
利用形態學特征參數構建的SVR模型能夠有效解決玉米植株粘連在一起時統計苗株困難的問題。模型分類精度達到96.54%,統計誤差為0.6%。當玉米苗為單株植被時,更容易發生過高估計。而當玉米苗為2株以上時,總體上呈過低估計。在1~3株的情況下,誤差較小,估測苗數的準確性較高。隨著苗株數逐漸增大,模型精度逐漸變差。當幼苗多以單株為主,冠層覆蓋度不大的情況下,模型的準確性最高。
本研究對雜草的處理仍然不夠完善,對于壟間雜草處理效果較好,但對于一些壟上小面積雜草未能進行有效的處理,這對模型精度的干擾性未知。同樣,實測樣方需要人力和物力,受制于一些客觀條件的限制,本研究的樣本點為1 003個,樣本點較少,如果增加樣本點的數量,勢必會提高SVR模型的預測精度。