宋玉彬 ,肖 成 ,趙云峰 ,王延倉
(北華航天工業學院,河北 廊坊 065000)
遙感技術的出現為農作物種植面積統計與調查提供了有力的手段。專家學者和研究人員基于衛星遙感數據,提出了一系列作物分類的機器學習方法來對區域農作物種類以及種植面積進行提取或統計[1]。這些分類的方法大致可以分為兩大類[2]。第一類為基于遙感機理的方法來提取作物的種植面積,第二類為利用機器學習和深度學習的方法來提取不同作物的種植面積[3]。第一類包括利用時序的作物生長特征比如光譜特征(地表反射率)、植被指數、增強植被指數等系列特征來對作物進行分類;第二類目前應用較多,包括利用計算機視覺、模糊分類、神經網絡、隨機森林、支持向量機、深度學習等方法對作物進行分類[4-8]。單純利用光譜特征對作物進行分類的方法效果并不十分理想,這是因為絕大多數作物和非作物普遍存在異物同譜的現象,僅僅從光譜維度很難將作物和其他非作物植被區分開來[9]。本研究從遙感作物分類精度較差的原因出發,提出從數據特征深入挖掘數據本身深層次特征的方法。在作物生長的過程中,不僅光譜能夠反映作物與其他非作物的區別,物候時間節點上的空間信息、光譜的時間序列信息、光譜的時間序列的一階差分信息、空間時間序列信息、空間時間序列的差分信息更能夠反映出作物和非作物本質的區別[10]。本研究將上述特征加入到機器學習分類的特征屬性中,以突破傳統反射率和散射特征無法有效表征作物的局限性。
河北省大部分位于華北平原地區,是我國重要的農作物產地。河北省西部與西北部邊緣地區多山脈,面積相對較小,絕大多數區域為地勢較為平坦的平原地區,非常適宜開展規模化的農業生產活動。城市化進程的加快為土地流轉創造了積極條件,土地的集中則為智慧農業產業的發展提供了基礎,獲取作物分類信息和位置是智慧農業開展的重要保障。研究區域如圖1所示。

圖1 研究區域(河北省DEM)
作物識別特征屬性的選擇能夠反映作物自身物質成分、結構、幾何,和成像幾何也有密切的關系。通常情況下,可見光波段的地表反射率反映的是作物種植區域的作物生物成分、內部微觀結構與外部幾何,土壤的成分、含水量、粗糙度等基本信息;紅外波段反映的是地表和作物的物理溫度;微波波段主要反映的是作物種植區域地表土壤含水量、土壤含鹽量、土壤表面幾何粗糙度,作物的化學成分、含水量、幾何結構等。因此,為了能夠準確識別作物,將光學波段、紅外波段以及微波波段均作為作物識別的基本屬性特征。
作物生長的時序特征也是識別作物的重要屬性特征。光學波段、紅外波段與微波波段的時間序列則可以反映作物的成分、內部微觀結構與外部幾何結構以及土壤成分、土壤含水量、土壤粗糙度隨時間的變化。作物有完整的生命周期,作物的物候和非作物有著顯著的差別。因此,作物生長的時間序列特征隨著時間的變化會呈現出一定的規律,這種規律與非作物植被是存在顯著差異的,這種作物生長的顯著特點可以作為機器學習的屬性特征。
作物在不同的物候時間節點,其紋理特征與非作物有著顯著的區別。通常情況下,樹木、雜草等植被由于無人為干預與管理,一般情況下其紋理無顯著特點,隨機性較強,而農作物在不同的生長時期其整體紋理特征會呈現一定規律的變化。比如小麥生長的過程中,在3 月份植株相對較小,大面積被裸土覆蓋,較小且密集的植株呈行排列。隨著小麥的不斷生長,其覆蓋面積不斷增加,裸土的面積逐漸減小,而小麥的葉片形式也使得其整體的表現呈現出小麥這種作物在特定時期獨特的紋理特征。一般很難去獲取到這種細致的紋理特征,因為即使是光學衛星影像的分辨率通常也在1 m以上。但是像素點和像素點間所形成的紋理信息,能夠在很大程度上體現出與其他作物或非作物顯著不同的時空特征。因此,可以對特定時間的波段影像求一階和二階導數以反映作物在特定時間的紋理特征。
紋理或空間特征的時間序列可以作為區分作物與非作物的顯著特征。對于作物來說,其在某個時間節點的紋理特征到其生命周期結束所形成的空間紋理特征時間序列,也可以有效地區分作物與非作物。在通常情況下,不同作物由于植株大小、葉片大小、葉片傾角等都會存在較為顯著的差別,不同時間節點的空間紋理特征會有差異,并且整個生命周期不同物候節點的紋理所形成的時間序列也會存在顯著的差異。所以本研究將空間紋理特征的時間序列作為作物分類的特征屬性。根據上述描述,本研究所選擇的特征屬性組合如表1 所示。

表1 作物生長時空特征
本研究采用的是GEE 平臺中自帶的機器學習中的監督分類算法——隨機森林算法。隨機森林分類算法的原理是隨機生成一定數量的樹,每一棵樹都是一個非線性分類器,通過訓練可以將這些樹都作為分類器。當輸入特征向量之后每棵樹都會產生一個分類結果,系統根據多棵樹輸出的分類結果通過投票的方式確定最終特征向量所屬的類別。本研究通過遍歷隨機森林分類器的超參數,經過精度的比較最終將超參數number Of Trees 設置為100,min Leaf Population 設置為1,variables Per Split 設置為null,bagFraction 設置為0.5,maxNodes 設置為null,seed 設置為0。在研究區域內隨機采取樣本點20 000個,這些樣本在空間上均勻分布于整個河北省。選擇不同的seed 參數生成與上述樣本點不同的20 000 個點,用于測試模型的泛化能力。
利用隨機森林分類器在上述參數的設置下,利用河北省內隨機的作物分布樣本對河北省的作物進行分類。其中樣本標注采用的是GEE 平臺中的全球糧食支持分析數據集GFSAD1000,將其中的作物區的5 種類型作為標簽。分類的結果如圖2 所示,其中,訓練精度達到了99.52%,測試精度達到了80.95%。

圖2 河北省作物分類結果
在進行試驗的過程中,當僅將初始的反射率數據作為特征屬性時,測試的精度僅為40%左右,隨著作物生長參量時間序列、物候節點的空間特征、物候節點空間特征的時間序列等大量屬性特征的加入,分類的精度從40%提升到60%、70%再到80.95%,這實際上說明本研究所選擇的作物生長的時序特征、物候節點的空間特征和物候節點空間特征的時間序列特征對于提高作物分類精度有著實質性的作用。在逐步利用作物時空特征來對作物進行分類的實驗過程中發現:隨著時空特征的加入,具有作物生長時空與時空序列特征的區域大量減少,最終導致分類結果中出現了大面積分類結果的缺失,這也是作物生長時空與時空序列特征用于作物分類的局限性。
機器學習能力的局限性其實還受到像素級別特征及像素級別特征組合之后形成的時空紋理特征的限制。通常情況下,像素點的值實際上是一個統計均值,一般從這些信息上無法獲取到像素內部豐富的信息。根據宋玉彬等在Remote Sensing 上發表的文章所提出的分辨率單元的散射信號分解理論,有望得到分辨率單元內更加豐富的信號分布,這會對機器學習特征基本概念與特征構建形成實質性的挑戰,也必然會影響到機器學習未來特征屬性構建的方式,對于未來模型分類精度的提升將產生顯著且積極的影響。