盧元兵,李華朋,張樹清
基于混合3D-2D CNN的多時相遙感農作物分類
盧元兵1,2,李華朋1※,張樹清1
(1. 中國科學院東北地理與農業生態研究所,長春 130102;2. 中國科學院大學,北京 100049)
準確的農作物分類圖是農業監測和糧食安全評估的重要數據來源,針對傳統的深度學習模型在多時相農作物遙感分類方面精度較低的問題,該研究將卷積維度單一的卷積神經網絡(Convolutional Neural Networks,CNN)進行改進,提出了一種混合三維和二維卷積的神經網絡識別模型(Hybrid Three Dimensional and Two Dimensional Convolutional Neural Networks,3D-2D CNN)。該模型首先通過多個三維卷積層提取時空特征,其次將輸出的特征降維壓縮后通過二維卷積層執行空域特征分析,最后將高層特征圖展平后通過全連接層進行類別預測。試驗以Landsat8多時相影像為數據源,將美國加利福尼亞州北部研究區的地塊按照2:2:6分層隨機劃分為訓練集、驗證集和測試集。試驗結果表明3D-2D CNN對13種農作物分類的總體精度(89.38%)、宏平均1值(84.21%)和Kappa系數(0.881)均優于三維卷積神經網絡(Three Dimensional Convolutional Neural Networks,3D-CNN)、二維卷積神經網絡(Two Dimensional Convolutional Neural Networks, 2D-CNN)、支持向量機(Support Vector Machines,SVM)和隨機森林(Random Forest,RF)等方法,并在參數量和收斂時間方面比3D CNN大幅度減小。同時,在較小樣本訓練集下3D-2D CNN仍表現最優。該模型綜合利用空間-光譜-時間特征并具有較高的分類精度和較強的魯棒性,這為解決多時相遙感農作物分類問題提供了一個有效且可行的方案。
遙感;農作物;多時相地塊;分類;深度學習;卷積神經網絡
農作物的種植類型和空間分布是表征農業資源合理利用的科學指標,也是農作物種植結構的綜合反映[1]。傳統的農作物種植類型制圖主要采用人工實地調查的方法,該方法易受主觀因素影響,并且不能動態監測農作物種植類型的變化。遙感影像能夠提供及時準確的農作物空間分布、長勢以及產量等農業信息,為數字化精準農業提供基礎數據[1]。隨著遙感衛星采集影像頻率的提高,多時相地球觀測能力在農作物監測中發揮著越來越重要的作用,如何充分利用密集多時相數據中隱含的物候規律顯得越來越重要[2]。因此,及時了解農作物種植結構對于調控農產品市場、輔助決策和保障農業可持續發展具有重要意義[1]。
基于遙感影像的作物或植被分類,通常有兩種方法。一種方法是將光譜帶聚合成代表植被物理特性的植被指數,其中歸一化植被指數(Normal Difference Vegetation Index,NDVI)是最常用的方法;二是直接利用原始多時相圖像進行分類[3]。Guerschman等利用多時相Landsat TM數據對土地覆蓋進行分類,結果表明利用原始圖像比NDVI可以獲得更高的精度[4]。光譜、空間和時間特征是遙感提取農作物種植類別信息的基礎[5]。季節性是農作物最顯著的特征之一,多時相遙感是監測農作物生長動態并進行分類的有效途徑[6]。隨著遙感技術和大數據分析技術的快速發展,國內外學者使用不同空間分辨率的遙感數據,從特征篩選、分類器選擇和參數優化等方面,對農作物類型空間分布開展了廣泛的研究[1]。支持向量機(Support Vector Machines,SVM)、隨機森林(Random Forest,RF)等淺層機器學習算法經過的非線性變換組合層較少,受特征工程(Feature Engineering, FE)影響較大,對影像中復雜異質特征的分辨效果較差[7]。近年來,深度學習被認為是機器學習和數據挖掘(包括遙感)研究領域的一項突破性技術,由于它具有對特征的層次化表示、高效率運算以及端到端地自動化學習等優點,因此它逐漸成為圖像模式識別領域的主流算法[8]。卷積神經網絡(Convolutional Neural Networks,CNN)是深度學習方法中最成功的網絡結構之一,研究表明在大多數圖像分類問題中CNN比其他模型表現更好[9]。對于多時相遙感影像或時間序列NDVI,3D CNN特別適合提取農作物生長的動態特征,并優于2D CNN、SVM和最鄰近分類等主流方法[3]。國外學者基于多光譜時間序列數據比較了CNN、遞歸神經網絡(Recursive Neural Network,RNN)和混合神經網絡(CNN+RNN)的分類性能,并得出效果最好的方法是混合配置網絡的結論[10]。Li等借鑒了自然語言處理(Natural Language Processing,NLP)知識中的transformer結構來挖掘多時間序列模式,提出了一種顯著提升農作物分類精度的混合模型CNN-transformer[2]。Gadiraju等提出了聯合利用空間、光譜和物候特征來識別農作物類型的多模態深度學習方案,使得預測誤差降低60%[11]。國內部分學者的研究表明一維CNN為長時間序列遙感圖像農作物種類識別提供了一種有效且高效的方法[12]。解毅等認為長短時記憶網絡(Long Short-Term Memory,LSTM)對多源遙感數據融合的時序NDVI進行農作物分類優勢明顯[13]。深度學習的主要優點是能夠有效地逼近高度復雜的問題,而不需要預先進行特征工程[9]。遙感圖像能夠提供動態或時間信息,雖然已有研究在農作物遙感理論、技術方法和實踐應用方面取得了顯著的進展[14-15],但是二維CNN缺乏準確提取三維特征的能力,在第三個維度(即時間維)提取的信息被平均化并折疊為標量,因此沒有充分挖掘該維度特征[8]。三維卷積的結構設計非常適用于時空表示,然而3D CNN計算復雜度高,參數較多不易被訓練[8],而且單獨處理多光譜波段上具有相似紋理的類時表現不佳[16],因此3D CNN在分類中的應用相對較少。
農業區作物景觀的異質性和破碎化,使得以田塊為單元的農作物對象特征不易于被中低分辨率影像有效地捕捉,因此增加了錯分地可能[1]。針對農作物分類過程中時間序列遙感信息利用不足、中分辨率影像地物特征表現相似,以及多數研究以較少農作物類別提取為主等問題,本文基于混合3D-2D CNN對多時相遙感影像進行農作物分類,探討模型的優化流程,分析時間信息和紋理信息在模型分類中的作用,為深度學習使用較少訓練樣本對多種混合農作物分類提供新思路。
加利福尼亞州是美國一個高產的農業州,其農作物種類豐富,農業收入全國排名第一(https://www.cdfa.ca.gov/ statistics/)。研究區域位于美國加州西部,主要由Solano縣北部和Yolo縣東部大部分地區,以及Sacramento縣西部和Sutter縣南部小部分地區構成(圖1)。研究區地理坐標范圍為38°11′9″N~38°55′25″N,121°23′44″W~122°4′3″W,地勢平坦,范圍約覆蓋4 650 km2。該地區屬地中海氣候,夏季炎熱干燥,冬季涼爽,7月最熱,12月最冷,土壤層較厚,灌溉條件理想,年平均降雨量500 mm以下,多發生在春、冬兩季,是加州降雪最少的地區之一(https://www.bestplaces.net/climate/county/california/solano)。該研究區農業景觀類型主要為耕地(包括旱地、稻田、果園和菜地)、草地、裸地、聚落和水體,農業景觀以灌溉農業為主(例如苜蓿和水稻作物),并形成了小麥、玉米和其他谷物輪作,以及番茄、紫花苜蓿、紅花、向日葵等輪作兩種常見的方式(https://aic.ucdavis.edu/ solano/econroots.pdf)。本文選擇該研究區主要考慮該區遙感數據和地面調查數據作為公共數據集的完備性,便于模型驗證以及與其他研究者的試驗結果對比。
1.2.1 土地利用調查數據
本文使用的是2014年加利福尼亞州水利部對縣級土地利用的調查數據(https://databasin.org/datasets/ 6cc5b24e401043a899a6db6eef5c86db/)。工作人員在實地調查期間,記錄了各種土地利用屬性。在這項研究中,作物種類是根據加州水資源計劃(California Water Plan, CDWR)確定的[8]。本試驗在ArcGIS中為每個觀察到的屬性創建一個標簽,然而某幾個標簽只適用于少數幾個地塊,所以有必要將這些標簽合并到感興趣的農作物類別中。本文選擇了13個夏季農作物類別進行分類和分析(表1),由于氣象或氣候因素的影響,不同年份和地理區域的種植或播種和收獲日期可能會有一些輕微的變化。另外,所有非農作物土地利用類型匯總為其他用地類(包括城鎮、閑置地和濕地)。

表1 樣本集中農作物類別及其比例
1.2.2 遙感衛星影像
本文采用的遙感數據是由Landsat8陸地成像儀(Operational Land Imager, OLI)獲取的地表反射率,多光譜波段空間分辨率為30 m,可從美國地質調查局(USGS, http://glovis.usgs.gov/)開發的Landsat二級產品獲得。研究發現使用Landsat8原始影像的分類精度高于植被指數NDVI[17],因此輸入數據選擇2014年云量低于5%的原始影像,軌道號為044/033。生育期內所有可用的遙感數據的時間點分別為2014-05-21、2014-06-06、2014-06-22、2014-07-24、2014-08-09、2014-08-25、2014-09-10、2014-09-26、2014-10-12、2014-10-28。根據農作物特征在2014-08-25和2014-09-26兩期影像與其他時相影像上的區分度和數據冗余度,本研究選擇其余8個時相多光譜遙感地表反射率數據(不包括以上兩期影像)作為模型的試驗數據。
1.2.3 數據集劃分和數據預處理
在大多數農田中,同一地塊的像素是十分同質且高度相關,將一個地塊中的像素分配到不同的數據集合(訓練集、驗證集和測試集)將違反獨立性原則[8]。考慮到單個地塊的耕作方式和管理方式通常不同,不同地塊的農作物類型相對獨立,在數據集劃分時,本文將同一地塊視為一個整體,并對非農作物用地進行了掩膜。整個研究區域采用分層隨機采樣的方法,按照2:2:6將農作物地塊劃分為訓練區、驗證區和測試區。由于同一地塊內像元歸屬的農作物類型相同,在訓練區和驗證區中,分別對每一類地物進行2 000左右的隨機點采樣得到典型樣本集,由于各類別地物所占面積大小不一樣,最終的訓練集、驗證集和測試集如表1所示。為了驗證算法的穩定性,在所選的訓練區中分別按照50%和25%兩種比例分層隨機選取地塊,形成新的小樣本訓練集,并各自占農作物總地塊數據的10%和5%(每類地物樣本點分別在1 000和500左右)。另外,在圖像輸入模型之前,需要對數據進行歸一化處理,將原始數據映射到[0,1]區間,加速模型的收斂。根據研究區內農作物的生長物候特征,本文選取成像時間2014-07-24的單時相遙感影像分析時相信息和紋理信息在CNN分類中的作用。該時相的植被生長旺盛,與其他地物光譜差異顯著,具有較好的區分度;同時農作物之間物候特征明顯,有利于分類識別。
2.1.1 卷積神經網絡(CNN)
卷積神經網絡(CNN)是一種多層前饋神經網絡,它是通過考慮局部和全局的平穩特性,為處理多陣列形式的大規模圖像或傳感數據而設計的[18]。CNN通常由多個層組成,層與層之間通過一組可學習的權重和偏差相互連接。每個層輸入圖像的斑塊,這些斑塊掃描整個圖像以捕獲局部和全局尺度的不同特征。在CNN框架內,這些圖像斑塊通過交替的卷積層和池化層進行泛化,直到獲得高層特征,并在此基礎上執行全連接的分類[19]。另外,在每個卷積層中可以存在多個特征圖,并且同一特征圖中共享卷積節點的權重。這種設置使網絡能夠學習不同的特征,同時保持參數的數量易于處理。而且,在卷積層外采用非線性激活函數來加強非線性。具體而言,在CNN中執行的主要操作可以概括[20]:
式中O-1表示第層的輸入特征圖,W和b分別表示該層的權重和偏差,它們通過線性卷積*對輸入特征圖進行卷積,(·)表示卷積層外的非線性函數。然后使用s×s窗口大小的最大池化(P)操作,以聚合特定區域內特征的統計信息,從而在第層輸出特征圖O。
2.1.2 混合卷積神經網絡(3D-2D CNN)
本文提出了一種新的基于CNN的架構,結合了空間和時間分析,模型架構如圖2所示。模型由相互連接的3個部分組成,第一部分使用3D卷積來執行時空分析,通過多個3D CNN層提取時空特征,而不折疊時間維度。第二部分使用2D卷積引入空域分析,將3D CNN的輸出壓縮后再輸送給2D CNN,進一步只從空間維度提取重要信息,這種時空分析之后的空間分析有助于消除噪聲。3D卷積模塊和2D卷積模塊與傳統CNN卷積基本相同,3D-2D混合卷積模式集成二者優點可以充分挖掘遙感影像的空間和時間特征,并提高計算效率。前兩個部分從輸入中提取特征,第三部分是一個全連接的神經網絡,它可以從多時相輸入的圖像中預測標簽。圖2中每一層正方形圖塊代表圖像不同的通道或特征圖,每個卷積塊在激活前都有一個批處理歸一化層,通過批處理歸一化,模型收斂速度更快,精度更高[21]。由于CNN的池化層可能會丟失大量有價值的信息,忽略整體和部分之間的關系[22],因此本研究所使用的神經網絡結構中不包括池化層。
圖3對二維(2D)卷積和三維(3D)卷積運算進行了比較,例如,在5月、6月、7月、8月和9月分別捕捉同一區域的單通道圖像斑塊,U表示卷積算子,?表示折疊特征的求和運算符(圖3)。
5幅多時相影像經過2D卷積運算變成單通道特征圖(圖3a),也就是二維卷積運算在時間維度提取的特征被平均并折疊成標量。與2D卷積不同,5幅多時相影像經過連續的3D卷積運算后變成3通道特征圖(圖3b),其中操作符U3在時間方向上連續執行3次卷積(用實線、虛線和點劃線箭頭表示),由相同線型的箭頭指向的特征包含時間信息。也就是連續的3D卷積運算能提取多時相遙感影像的時空信息(圖3b)。在實踐中,多時相遙感圖像由多光譜通道組成,即由空間維、光譜維、時間維構成,2D卷積運算所提取的特征在時間方向上不存在關系,而3D卷積運算能保留時間動態特征[3]。
目前,在圖像語義分割任務中常用的方法是利用交叉熵損失函數(CEloss)對模型進行訓練,交叉熵損失函數(CEloss)公式如下[23]:


實際上,由于主要是解決難分類和易分類樣本的不平衡,正負樣本的不平衡問題主要由權重因子α進行調整,并且有試驗證明Focalloss的平衡形式取得的分類精度略高于其非平衡形式。因此本文采用Focalloss的平衡形式作為損失函數[24]:

聚焦參數平穩地調整易分類樣本權重下降的速率。當=0時,Focalloss相當于CEloss,當增加時,調整因子的效果也隨之增加。
分類器的性能是影響其分類泛化能力的關鍵前提,為了定量化模型在測試集數據中的分類精度表現,本文采用混淆矩陣、總體精度(Overall Accuracy,OA)、精確率(Precision)、召回率(Recall)、1分數的宏平均(宏平均1值)、Kappa系數等指標對試驗結果進行評價,其中宏平均1值由精確率和召回率計算得到[25]。
為了進行比較,本文還嘗試了2D CNN、3D CNN以及另外兩種典型傳統的機器學習分類器:SVM和RF,它們通常作為分類任務的基線模型[8]。隨機森林是基于裝袋技術(Bagging)的決策樹集成算法[26],支持向量機是通過分離超平面而定義的分類器模型,一般使用核函數進行非線性分類[27]。SVM和RF在遙感應用中得到了廣泛的應用,并在復雜的分類任務中取得了巨大的成功[28]。本研究以SVM和RF的分類結果為參考基準,它們代表目前流行的非深度學習算法的性能。對于SVM和RF,本文使用Python中的機器學習庫實現。每個分類器都需要一組超參數,本文采用隨機搜索策略并根據驗證集的分類精度來優化所選分類器的主要超參數。具體方法為反復多次訓練分類器,每次運行都基于所有超參數值集合中的隨機組合[8]。經過試驗,SVM超參數C和gamma最優值分別為20和3,RF超參數n_estimators、max_depth、min_samples_split、min_samples_leaf、max_features最優值分別為300、25、2、1、’sqrt’。兩種深度學習模型3D CNN和2D CNN參數設置與本文采用的混合3D-2D CNN模型一致。為了處理數據集類別之間的不平衡問題,本文將類別權重參數設置為與類豐度成反比,以使每個類的貢獻度相等。
本文試驗基于Python3.6軟件平臺和TensorFlow2.0深度學習框架,采用Intel i7-9700處理器和NVIDIA RTX2080 GPU運算,運行內存32 G。
本文采用具有Adam優化器的隨機梯度下降算法[29]對所有神經網絡進行訓練,經過試驗,本研究使用的CNN模型均為四層卷積層,混合3D-2D CNN前三層為3D卷積,第四層為2D卷積。窗口尺寸過大易致卷積神經網絡模型對線條特征提取不清晰,類別間邊界不夠細膩,影響圖像分類效果[30]。在綜合考慮計算效率和分類精度的基礎上,本文經過對鄰域窗口{9×9,11×11,15×15,19×19,21×21}的多次嘗試,當α=0.25,=2,以樣本點為中心像元生成11×11×32鄰域窗口的圖像塊作為輸入數據時模型的分類效果最好。由于小卷積核進行一次卷積運算覆蓋的像元數少,對密集特征表示效果較好,本文所用數據為中等分辨率遙感影像,識別地物類型為農作物,在遙感影像中呈密集分布狀態[31],因此所有CNN模型每層卷積核大小設置相同均為3×3,卷積核個數均設置為32、64、128、256。為了提高模型的泛化能力,特征圖展開后經過兩個全連接層,最后進入分類決策層。批大小設置為512,初始學習率從0.001開始,當驗證樣本的準確率停止提高時,學習率下降5倍。對選定的模型進行訓練,直到驗證精度達到穩定水平不再明顯變化為止。
本文采用100輪次訓練模型,由于不同的模型,參數量不等,因此3D CNN訓練時間最長,SVM訓練時間最短。相比2D-CNN和3D-CNN,混合3D-2D CNN收斂速率最快,并取得最大驗證精度值(圖4a)和最小驗證損失值(圖4b)。
本文計算了測試集的總體精度和混淆矩陣以評估所有分類器的性能。總體精度與正確制圖的面積成正比,適用于面積估計。在本試驗測試集中,制圖精度為1%時,大概對應于1 160 hm2農作物面積。另外,評價標準還使用宏平均1值(所有類別1值的簡單平均)作為分類能力的指標,對于每個類,宏平均1值是生產者準確率和使用者準確率的調和平均數。宏平均1值的大小反映了模型識別農作物空間分布的能力,特別是對數量相對較少的農作物類型[8]。如表2所示,經過20%地塊上隨機采樣的樣本訓練的混合3D-2D CNN在測試集上取得了各個評價指標的最優值,總體精度、宏平均1值和Kappa系數分別為89.38%、84.21%、0.881,而SVM均取得了最小值。混合3D-2D CNN與3D CNN及2D CNN模型的各個評價指標相比均有一定程度的提高,其總體精度分別提高1.35和5.46個百分點,宏平均1值分別提高1.33和6.78個百分點,Kappa系數分別提高0.015和0.061。與傳統機器學習模型SVM和RF相比,所有CNN模型的評價指標均有所提高,而本文所提出的混合3D-2D CNN提高最為明顯,其總體精度分別增加8.02和7.23個百分點,宏平均1值分別增加10.54和10.02個百分點,Kappa系數分別增加0.089和0.081(表2)。

表2 不同模型在測試集上的分類精度比較
圖5顯示了不同分類器對不同農作物分類結果的歸一化混淆矩陣。總體而言,CNN模型(包括混合3D-2D CNN(圖5a)、3D CNN(圖5b)、2D CNN(圖5c))對不同農作物類型的識別精度優于傳統機器學習模型(包括SVM (圖5d)、RF (圖5e)),特別是本文所提出的混合3D-2D CNN模型表現最為優異,其中農作物類型核桃樹(W)、其他落葉果樹(D)、苜蓿及其混合物(AM)和混播草地(P)比SVM分類精度分別提高14.09、18.00、12.78和13.02個百分點,而在農作物類型杏樹(A)、其他落葉果樹(D)、核桃樹(W)和混播草地(P)的識別精度分別比RF提高了15.96、18.32、14.78和12.91個百分點。在深度學習模型中,混合3D-2D CNN對不同農作物類型的分類精度均高于3D CNN及2D CNN,其中相對3D CNN,其他落葉果樹(D)、番茄(T)、玉米類(CS)和苜蓿及其混合物(AM)識別精度分別提高了2.46、3.64、2.10和3.11個百分點;相對2D CNN,杏樹(A)、核桃樹(W)、番茄(T)、玉米類(CS)、紅花(Sa)、向日葵(Su)、苜蓿及其混合物(AM)和混播草地(P)的分類精度分別提高了6.76、8.92、7.54、11.23、8.33、5.25、6.17和6.60個百分點。在傳統機器學習模型中,RF對農作物玉米類(CS)、谷物和干草(GH)和苜蓿及其混合物(AM)的識別精度比SVM分別提高了2.66、3.97和6.37個百分點。
為了驗證混合3D-2D CNN在小數據集上的穩定性和普適性,本文隨機選取訓練地塊中50%和25%的地塊,分別得到占總數據10%和5%的兩種小樣本訓練集,并在此基礎上保持驗證集和測試集不變(仍然占總數據的20%和60%)。五種分類器在測試集上的分類精度如表2所示,不同比例的訓練集訓練得到的混合3D-2D CNN均取得了分類精度的最優值。所有模型經過10%的訓練樣本訓練后,在相同測試集上混合3D-2D CNN比其他深度學習模型3D CNN和2D CNN的分類精度分別提高了1.40和5.92個百分點;而相對于淺層機器學習模型SVM和RF,3D-2D CNN的分類精度提升更為顯著,分別達到了7.80和7.01個百分點(表2)。所有模型經過5%的訓練樣本訓練后,在相同測試集上混合3D-2D CNN比其他深度學習模型3D CNN和2D CNN的分類精度分別提高了1.27和6.94個百分點;而相對于淺層機器學習模型SVM和RF,3D-2D CNN的分類精度提升更為顯著,分別達到了7.77和7.09個百分點(表2)。另外,就模型穩定性而言,訓練數據集由20%減少至10%,模型穩定性大小順序為:SVM=RF>3D-2D CNN> 3D CNN > 2D CNN;訓練數據集由10%減少至5%,模型穩定性大小順序為:3D CNN > SVM>3D-2D CNN>RF>2D CNN。
為了分析農作物物候信息在CNN分類中的作用,本試驗以2014-07-24單時相遙感影像為例對農作物進行識別,分類結果顯示2D CNN在該單時相遙感影像測試集上的總體精度、宏平均F1值和Kappa系數分別為64.14%、57.84%、0.601。
本文對模型復雜度(模型參數內存需求)和計算時間(訓練時間和測試時間)進行了比較(表3)。在3種深度學習模型混合3D-2D CNN、3D CNN和2D CNN中,3D CNN模型參數內存需求最大,計算時間最長,而2D CNN模型參數內存需求最小,計算效率最快,分類精度相對較低。混合3D-2D CNN模型在保持相對較高分類精度的情況下,比3D CNN模型具有相對較小的參數內存需求和較快的訓練時間和推斷時間,這是因為該模型沒有將最后一層卷積層進行3D 卷積,而是將其降維后輸入到2D卷積中,這樣較大程度地減少了參數的數量,提高了模型性能。

表3 不同CNN模型性能比較
多時相農作物遙感具有光譜與空間高度異質性特征,這給大范圍農作物遙感制圖分類帶來挑戰,本文使用時間序列遙感數據作為分類器的輸入進行研究。農作物的生長變化信息具有關聯性,但這些時間特征往往被部分忽略或用簡單化的模型來表示。對于支持向量機(SVM)和隨機森林(RF),序列中的每一個時間步都被視為一個獨立的維度,一般會采用過于簡化的的經驗規則來表示時間特征[3],沒有利用序列關系。2D CNN僅在空間維卷積,在一定程度上由于其卷積的限制會丟失時間信息,對于光譜相似但物候信息差異較大的農作物不能準確分類[32]。SVM和RF雖然利用光譜信息,但無法有效納入空間信息,而以圖像塊作為輸入單元的卷積神經網絡(CNN)能夠提取空間相關信息和深層次特征,但由于2D CNN未能充分利用拼接后的多時相多光譜圖像的時間變化特征,與傳統模型SVM和RF相比,其分類精度提高幅度并非顯著。這表明如果忽略分類器的差異,拼接的多時相多光譜圖像具有很好的時空變化特征,并且與傳統CNN學習的最先進的多層次表示相匹配。與2D CNN不同,3D CNN中的三維卷積核分別在空間和時間維上進行卷積,它可以更好地提取多時相遙感數據的時空特征,因而3D CNN分類精度明顯優于2D CNN、SVM和RF模型。
本文中3D CNN模型的輸入數據需是多時相遙感影像,而2D CNN模型的輸入數據可以是單時相或多時相遙感影像。試驗以2014-07-24單時相遙感影像為例,2D CNN在該單時相遙感影像上的農作物分類精度(OA=64.14%,1=57.84%,Kappa=0.601)遠低于采用的多時相遙感影像(OA=83.92%,1=77.43%,Kappa=0.820)。結果表明時相因素在農作物影像分類中具有重要的作用,在農作物物候期內提高遙感影像的時間分辨率可以獲得更高的農作物分類精度[33]。為了減少空間關系信息對分類結果的噪聲影響,本文將紋理信息作為分類的輔助特征,并基于二階概率統計的濾波(Co-occurrence Measures)考慮了8種紋理特征[34]:均值(Mean)、方差(Variance)、協同性(Homogeneity)、對比度(Contrast)、相異性(Dissimilarity)、信息熵(Entropy)、二階矩(Second Moment)、相關性(Correlation)。上述紋理特征是由全向64位陰影灰度圖像生成的,本文使用的內核大小為11×11,并以2D CNN模型和2014-07-24單時相遙感影像為例分析紋理特征對農作物分類精度的影響。試驗結果顯示,相比該單時相影像(未疊加紋理特征),2D CNN在疊加紋理特征的影像上的分類精度僅提高了0.68個百分點。Yang等[35]利用CNN(一維CNN和二維CNN)和多時相Sentinel-2數據對農作物進行分類,結果表明多時相遙感影像紋理信息對農作物分類精度的貢獻并不明顯。在基于CNN模型的多時相遙感農作物分類中,紋理信息主要用于輔助增強較小地物的特征表達,光譜信息對農作物分類精度貢獻最大[36]。由于添加紋理特征后的輸入數據量較大,且對農作物分類精度提升不顯著,因此本文模型輸入數據僅使用未疊加紋理特征的多時相遙感影像。
為了評估所提方法的分類性能,本文搜集了國內外不同學者利用加利福尼亞州縣級土地利用調查數據和Landsat影像對農作物進行分類的試驗結果,并對幾種先進的分類方法1D CNN(+增強植被指數)[8]、Inception+1D CNN(+多光譜影像)[17]、1D CNN(+植被指數組合)[37]進行了比較,如表4所示。以1D CNN(+增強植被指數)為例,該模型復雜度相對較小,該研究中農作物類別數為14(與本文試驗類別數接近),其中有兩類農作物分類精度低于60%。雖然本文采用的混合3D-2D CNN模型參數量較大,但是試驗僅使用了8景多時相Landsat8數據以及相對較小的訓練集便獲得了與其他先進模型相當的分類精度。由于時空三維卷積模型復雜度高且對樣本數據量要求大,一般來說,由于受野外調查條件等限制,遙感分類模型中的大樣本數據集難以獲取[38],大樣本數據要求難以滿足,因而難以保證3D CNN模型的高精度分類。如何保證小樣本情況下深度學習模型的分類精度及穩定性是當前遙感領域亟需解決的重要問題[39-40]。本研究提出的混合3D-2D CNN模型,既保留了3D CNN時空三維特征,同時又降低了模型復雜度及時空維度,因而與其他模型相比取得了較高的分類精度。試驗也表明即使在10%和5%的小樣本訓練集上,混合3D-2D CNN模型仍然表現最為優異,并且也降低了模型計算的時間復雜度,因而它為復雜農作物遙感分類識別提供了一種重要的參考與借鑒。

表4 3D-2D CNN模型與其他先進模型分類性能對比
注:最后一個模型數據集劃分為訓練集、測試集,其他的為訓練集、驗證集、測試集。
Note: The last model dataset is divided into training set and test set, and the others are training set, validation set and test set.
在實際應用中,確定多時相農作物制圖任務的輸入數據時,常常會遇到一個兩難的問題。原始時間序列在分類中的使用是簡單而直接的,但是序列中的信息可能沒有被充分挖掘,特別是對于那些本來就不具備處理時間關系的分類器;通過擬合預定義曲線函數進行物候提取,可以提供具有物理意義的有用特征,但其應用受到曲線函數選擇的限制[8]。在某種程度上,基于時間卷積特征的混合3D-2D CNN模型在以上兩難問題之間取得了平衡,它能夠有效地利用空間信息和時間特征以改進分類效果。因此,混合3D-2D CNN模型在時空特征表示方面具有可行性和有效性。未來的工作將繼續研究基于深度學習技術的農作物制圖,挖掘不同輸入尺度下模型在農作物分類制圖精度中的潛力,在面向對象的基礎上以地塊為單元進行分類,并對不同的算法進行集成或決策融合以達到優勢互補,從而提高分類精度,以期為中國農業監測提供支持輔助決策的農作物類型空間分布信息。
如何充分利用多時相遙感數據,有效挖掘農作物生育期內物候規律,提高農作物遙感分類識別與制圖精度是當前農業遙感領域研究的重要課題。本文以加利福尼亞州北部農業區為試驗區域,利用Landsat8時間序列遙感數據,提出了一種混合3D卷積和2D卷積為構建塊的時空卷積深度網絡模型3D-2D CNN,并利用該模型實現了地塊尺度多種農作物的精細分類。主要結論如下:
1)針對研究區內13種農作物識別,混合3D-2D CNN模型取得了相對較高的分類結果,其分類精度(總體精度(Overall Accuracy,OA)=89.38%)優于其他深度卷積模型3D CNN(OA=88.03%)、2D CNN(OA=83.92%),以及傳統淺層機器學習模型支持向量機(Support Vector Machines,SVM)(OA=81.36%)、隨機森林(Random Forest,RF)(OA=82.15%),表明該模型融合了3D CNN模型的時空特征挖掘能力,不需要額外的特征工程去構建紋理特征,并實現端到端的農作物自動分類。
2)在保證較高分類精度的情況下,混合3D-2D CNN模型相比3D CNN模型的參數內存需求和計算時間分別下降了44.10%和35.38%,表明該模型具有較低的模型復雜度以及較高的計算效率。
3)本文開展以不同大小訓練樣本的模型試驗與驗證研究,在占總數據10%和5%的兩種小樣本訓練集上,混合3D-2D CNN模型(10%,OA=86.49%;5%,OA=82.99%)均取得了優于其他模型3D CNN(10%,OA=85.09%;5%,OA=81.72%)、2D CNN(10%,OA=80.57%;5%,OA=76.05%)、SVM(10%,OA=78.69%;5%,OA=75.22%)、RF(10%,OA=79.48%;5%,OA=75.90%)的農作物分類精度,表明該模型在小數據集上的穩定性和適用性。
本文所提出的混合3D-2D CNN模型可有效挖掘多時相遙感信息,并取得了較優的農作物遙感分類結果,表明在時間序列分類中該模型結構設計的合理性及重要性,這為農作物遙感制圖應用提供了一種靈活和高度自動化的方法。此外,3D-2D CNN模型有助于利用遙感數據進行其他與變化、趨勢或動態相關的建模過程。例如,在冰川融化、氣候變化和季節性森林動態等研究的模型中嵌入三維卷積和二維卷積信息。總之,在使用時間序列遙感數據進行分類任務的眾多方法中,混合3D-2D CNN模型是一個可行且有效的選擇。
[1] 張鵬,胡守庚. 地塊尺度的復雜種植區作物遙感精細分類[J]. 農業工程學報,2019,35(20):125-134.
Zhang Peng, Hu Shougeng. Fine crop classification by remote sensing in complex planting areas based on field parcel[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(20): 125-134. (in Chinese with English abstract)
[2] Li Z, Chen G, Zhang T. A CNN-Transformer hybrid approach for crop classification using multitemporal multisensor images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 847-858.
[3] Ji S, Zhang C, Xu A, et al. 3D convolutional neural networks for crop classification with multi-temporal remote sensing images[J]. Remote Sensing, 2018, 10(1): 75.
[4] Guerschman J P, Paruelo J M, Bella C D, et al. Land cover classification in the Argentine Pampas using multi-temporal Landsat TM data[J]. International Journal of Remote Sensing, 2003, 24(17): 3381-3402.
[5] 胡瓊,吳文斌,宋茜,等. 農作物種植結構遙感提取研究進展[J]. 中國農業科學,2015,48(10):1900-1914.
Hu Qiong, Wu Wenbin, Song Qian, et al. Recent progresses in research of crop patterns mapping by using remote sensing[J]. Scientia Agricultura Sinica, 2015, 48(10): 1900-1914. (in Chinese with English abstract)
[6] Xie Y, Sha Z, Yu M. Remote sensing imagery in vegetation mapping: A review[J]. Journal of Plant Ecology, 2008, 1(1): 9-23.
[7] Sheykhmousa M, Mahdianpari M, Ghanbari H, et al. Support vector machine vs. random forest for remote sensing image classification: A meta-analysis and systematic review[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 6308-6325.
[8] Zhong L, Hu L, Zhou H, et al. Deep learning based multi-temporal crop classification[J]. Remote Sensing of Environment, 2019, 221: 430-443.
[9] Kamilaris A, Prenafeta-Boldú F X. A review of the use of convolutional neural networks in agriculture[J]. The Journal of Agricultural Science, 2018, 156(3): 312-322.
[10] Garnot V S F, Landrieu L, Giordano S, et al. Time-Space tradeoff in deep learning models for crop classification on satellite multi-spectral image time series[C]//IGARSS 2019-2019 IEEE International Geoscience and Remote Sensing Symposium. Yokohama: IEEE, 2019: 6247-6250.
[11] Gadiraju K K, Ramachandra B, Chen Z, et al. Multimodal deep learning based crop classification using multispectral and multitemporal satellite imagery[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: Association for Computing Machinery, 2020: 3234-3242.
[12] 屈煬,袁占良,趙文智,等. 基于多時序特征和卷積神經網絡的農作物分類[J]. 遙感技術與應用,2021,36(2):304-313.
Qu Yang, Yuan Zhanliang, Zhao Wenzhi, et al. Crop classification based on multi-temporal features and convolutional neural network[J]. Remote Sensing Technology and Application, 2021, 36(2): 304-313. (in Chinese with English abstract)
[13] 解毅,張永清,荀蘭,等. 基于多源遙感數據融合和LSTM算法的作物分類研究[J]. 農業工程學報,2019,35(15):129-137.
Xie Yi, Zhang Yongqing, Xun Lan, et al. Crop classification based on multi-source remote sensing data fusion and LSTM algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(15): 129-137. (in Chinese with English abstract)
[14] Li H, Zhang C, Zhang S, et al. A hybrid OSVM-OCNN method for crop classification from fine spatial resolution remotely sensed imagery[J]. Remote Sensing, 2019, 11(20): 2370.
[15] Li H, Zhang C, Zhang S, et al. Crop classification from full-year fully-polarimetric L-band UAVSAR time-series using the Random Forest algorithm[J]. International Journal of Applied Earth Observation and Geoinformation, 2020, 87: 102032.
[16] Roy S K, Krishna G, Dubey S R, et al. HybridSN: Exploring 3-D–2-D CNN feature hierarchy for hyperspectral image classification[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 17(2): 277-281.
[17] García Pereira A, Porwol L, Ojo A, et al. Exploiting the temporal dimension of remotely sensed imagery with deep learning models[C]//Proceedings of the 54th Hawaii International Conference on System Sciences. Hawaii: HICSS, 2021: 5317.
[18] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[19] Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.
[20] Zhang C, Sargent I, Pan X, et al. An object-based convolutional neural network (OCNN) for urban land use classification[J]. Remote Sensing of Environment, 2018, 216: 57-70.
[21] Li J, Liang B, Wang Y. A hybrid neural network for hyperspectral image classification[J]. Remote Sensing Letters, 2020, 11(1): 96-105.
[22] Li H, Huang J, Ji S. Bearing fault diagnosis with a feature fusion method based on an ensemble convolutional neural network and deep neural network[J]. Sensors, 2019, 19(9): 2034.
[23] Kampffmeyer M, Salberg A B, Jenssen R. Semantic segmentation of small objects and modeling of uncertainty in urban remote sensing images using deep convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas: IEEE, 2016: 1-9.
[24] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2999-3007.
[25] Bayr U, Puschmann O. Automatic detection of woody vegetation in repeat landscape photographs using a convolutional neural network[J]. Ecological Informatics, 2019, 50: 220-233.
[26] Liaw A, Wiener M. Classification and regression by randomForest[J]. R news, 2002, 2(3): 18-22.
[27] Cortes C, Vapnik V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.
[28] Zhang J, Feng L, Yao F. Improved maize cultivated area estimation over a large scale combining MODIS–EVI time series data and crop phenological information[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 94: 102-113.
[29] Kingma D P, Ba J. Adam: A method for stochastic optimization[EB/OL]. arXiv preprint arXiv: 1412.6980, 2014.
[30] 馬凱,羅澤. 基于卷積神經網絡的青海湖區域遙感影像分類[J]. 計算機系統應用,2018,27(9):137-142.
Ma Kai, Luo Ze. Classification of remote sensing images in Qinghai lake based on convolutional neural network[J]. Computer Systems and Applications, 2018, 27(9): 137-142. (in Chinese with English abstract)
[31] 汪傳建,趙慶展,馬永建,等. 基于卷積神經網絡的無人機遙感農作物分類[J]. 農業機械學報,2019,50(11):161-168.
Wang Chuanjian, Zhao Qingzhan, Ma Yongjian, et al. Crop identification of drone remote sensing based on convolutional neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(11): 161-168. (in Chinese with English abstract)
[32] Kussul N, Lavreniuk M, Skakun S, et al. Deep learning classification of land cover and crop types using remote sensing data[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(5): 778-782.
[33] Qiong H U, Wu W, Qian S, et al. How do temporal and spectral features matter in crop classification in Heilongjiang Province, China?[J]. Journal of Integrative Agriculture, 2017, 16(2): 324-336.
[34] Zhou H, Fu L, Sharma R P, et al. A hybrid approach of combining random forest with texture analysis and VDVI for desert vegetation mapping based on UAV RGB data[J]. Remote Sensing, 2021, 13(10): 1891.
[35] Yang S, Gu L, Li X, et al. Crop classification method based on optimal feature selection and hybrid CNN-RF networks for multi-temporal remote sensing imagery[J]. Remote Sensing, 2020, 12(19): 3119.
[36] 周壯,李盛陽,張康,等. 基于CNN和農作物光譜紋理特征進行作物分布制圖[J]. 遙感技術與應用,2019,34(4):694-703.
Zhou Zhuang, Li Shengyang, Zhang Kang, et al. Crop mapping using remotely sensed spectral and context features based on CNN[J]. Remote Sensing Technology and Application, 2019, 34(4): 694-703. (in Chinese with English abstract)
[37] 屈煬,袁占良,趙文智,等. 基于多時序特征和卷積神經網絡的農作物分類[J]. 遙感技術與應用,2021,36(2):304-313.
Qu Yang, Yuan Zhanliang, Zhao Wenzhi, et al. Crop classification based on multi-temporal features and convolutional neural network[J]. Remote Sensing Technology and Application, 2021, 36(2): 304-313.
[38] Elmes A, Alemohammad H, Avery R, et al. Accounting for training data error in machine learning applied to Earth observations[J]. Remote Sensing, 2020, 12(6): 1034.
[39] Karpatne A, Ebert-Uphoff I, Ravela S, et al. Machine learning for the geosciences: Challenges and opportunities[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 31(8): 1544-1554.
[40] Tian T, Li C, Xu J, et al. Urban area detection in very high resolution remote sensing images using deep convolutional neural networks[J]. Sensors, 2018, 18(3): 904.
Multi-temporal remote sensing based crop classification using a hybrid 3D-2D CNN model
Lu Yuanbing1,2, Li Huapeng1※, Zhang Shuqing1
(1.,,130102,; 2.,100049,)
Reliable and accurate classification of crop types can greatly contribute to data sources in agricultural monitoring and food security. Remote sensing can be used to rapidly and accurately extract the planting areas and distribution of main crops, thereby optimizing the spatial pattern of crops, grain production, and management. However, it is extremely difficult to identify and then map different types of crops with high accuracy and efficiency, especially for traditional machine learning. The reason is that there are highly complex and heterogeneous spectral data in crop space on time-series remote sensing images. Fortunately, three-dimensional convolution neural networks (3D CNN) are suitable for the spatio-temporal information in the time-series remote sensing imagery. Nevertheless, the high complexity of the 3D CNN model often requires a large number of training samples. In this study, a novel hybrid classification model (called 3D-2D CNN) was proposed to integrate 3D CNN and two-dimensional convolution neural networks (2D CNN) in the trade-off among accuracy, efficiency, and ground sample acquisition. The specific procedure was as follows. The spatio-temporal features were first extracted from the multiple 3D convolutional layers, then the output features were compressed for the spatial feature analysis in the 2D convolutional layer, and finally the high-level maps of features were flattened to predict the category in the fully connected layer. Batch normalization was performed on the input data of each layer to accelerate the network convergence. As such, the complex structure of the original 3D CNN was reduced, while the capacity of 3D-2D CNN remained in spatio-temporal feature extraction. Taking northern California, USA, as the study area, Landsat8 multi-temporal images were utilized as the remote sensing data source in the test to verify the model. Landsat images presented specific characteristics, compared with the natural. The spectral and texture features of the same type varied greatly along with the imaging time and conditions. California agricultural investigation was used as sampling data. Accordingly, the land plots in the study area were randomly divided into a training, validation, and test region, according to 2:2:6 stratification, where the training and validation sample datasets were randomly selected. Since the overflow easily occurred, when the training dataset was limited in actual work, it was necessary for the deep learning model to require a large number of data samples to train a CNN. Correspondingly, two small sample sets of different proportions were randomly selected from the training sample set of 50% and 25% to verify the feasibility of the model. The trained models were then used to predict the test region. The experimental results showed that the overall accuracy (89.38%), macro-average1 value (84.21%), and Kappa coefficient (0.881) of 3D-2D CNN for 13 crop classifications performed better than other deep learning, including 3D CNN and 2D CNN, as well as traditional machine learning, such as Support Vector Machines (SVM) and Random Forest (RF). It should be mentioned that the proposed 3D-2D CNN also achieved the best performance in the small training set, where the highest recognition rate of classification was obtained, compared with the benchmark models. Meanwhile, the convergence time of 3D-2D CNN was reduced greatly, compared with the 3D CNN, thanks to a significant reduction of parameters. It was found that there was a greater effect of temporal features of crops that were hidden in multi-temporal remote sensing imagery on CNN classification, compared with texture features. Consequently, the highest accuracy and strongest robustness were obtained in the 3D-2D CNN model, due mainly to the comprehensive utilization of spatial-temporal-spectrum features. The finding can provide a highly effective and novel solution to crop classification from multi-temporal remote sensing.
remote sensing; crops; multi-temporal field parcel; classification; deep learning; CNN
盧元兵,李華朋,張樹清. 基于混合3D-2D CNN的多時相遙感農作物分類[J]. 農業工程學報,2021,37(13):142-151.
10.11975/j.issn.1002-6819.2021.13.017 http://www.tcsae.org
Lu Yuanbing, Li Huapeng, Zhang Shuqing. Multi-temporal remote sensing based crop classification using a hybrid 3D-2D CNN model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(13): 142-151. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.13.017 http://www.tcsae.org
2020-12-02
2021-06-29
中科院戰略性先導科技專項項目課題(XDA28010500);國家重點研發計劃項目(2017YFB0503602)
盧元兵,博士生,研究方向為農業遙感、遙感信息智能化提取與分析。Email:luyuanbing@iga.ac.cn
李華朋,博士,副研究員,研究方向為農業遙感、遙感信息智能化提取與分析、時空大數據挖掘。Email:lihuapeng@iga.ac.cn
10.11975/j.issn.1002-6819.2021.13.017
TP79; S127
A
1002-6819(2021)-13-0142-10