







摘要:棉花作為南疆地區(qū)重要的經濟作物之一,在經濟工作中起著至關重要的作用。及時、準確地獲取棉花種植面積,對農業(yè)政策和經濟發(fā)展具有重要意義。為了實現這一目標,需要綜合分析不同方法和遙感數據對最終棉花種植面積制圖精度的影響。本研究以新疆阿克蘇地區(qū)棉花種植區(qū)為例,借助Google Earth Engine云平臺,采用隨機森林法(RF)、支持向量機法(SVM)、最小距離分類法(MDC)等3種機器學習方法,利用2類中分辨率影像提取棉花種植信息,充分評估使用的檔案數據和官方統(tǒng)計數字。結果表明,采用Sentinel-2方法和RF獲得了最優(yōu)棉花圖,隨機森林法分類器的總體精度、Kappa系數和用戶精度分別高達97.4%、96.7%和91.1%,分別比Landsat-8圖像和RF模型的結果高出7.3百分點、0.081、2.8百分點。與官方統(tǒng)計數據相比,采用RF、SVM、MDC對Sentinel-2和Landsat-8圖像的棉花種植面積估算圖的精度分別為98.4%、95.8%、79.6%和90.3%、83.7%、72.5%。很明顯,Sentinel-2和RF模型的組合與官方數據的一致性最高。對比分析結果表明,Landsat-8和Sentinel-2數據可用于大范圍復雜種植結構的棉花高精度測繪。本研究結果有望為棉花大面積鑒別提供一定的理論指導和實踐指導。
關鍵詞:棉花分類;Sentinel-2;Landsat-8;隨機森林;支持向量機;最小距離分類;Google Earth Engine
中圖分類號:S127" 文獻標志碼:A
文章編號:1002-1302(2024)04-0223-08
收稿日期:2023-04-16
基金項目:國家自然科學基金(編號:61563046);綠洲生態(tài)農業(yè)重點兵團實驗室開放課題(編號:202002)。
作者簡介:洪國軍(1995—),男,江西樂平人,碩士研究生,主要研究方向為農業(yè)信息化。E-mail:hgj950603@163.com。
通信作者:李 旭,碩士,教授,主要研究方向為農業(yè)信息化。E-mail:lixu2866@126.com。
棉花是農作物中僅次于糧食的第二大作物,對國計民生具有重要戰(zhàn)略意義[1]。它不僅是1億多棉農收入的主要來源,也是紡織工業(yè)的主要原料、廣大人民的生活必需品和出口創(chuàng)匯的重要商品[2]。準確及時地獲取棉花種植面積信息對于制定農業(yè)政策和促進經濟發(fā)展具有至關重要的意義。傳統(tǒng)的農業(yè)統(tǒng)計技術和抽樣調查方法獲取棉花種植面積信息通常需要耗費很長時間。相比之下,遙感影像具有重復觀測和廣泛覆蓋范圍的特點,在準確獲取棉花種植面積方面具有重要作用,已被廣泛用于作物識別研究。
通常采用的基于遙感影像的作物制圖方法是建立遙感影像反射率和作物生長特征之間的關系。Sentinel-2(S2)影像數據具有比Landsat-8(L8)影像數據更好的光譜信息、更高的時間和空間分辨率[3]。很多學者都對這2種數據的實際應用效果進行了對比分析。例如,邱萬林等通過哨兵-2號和Landsat-8衛(wèi)星影像對比,結合4種機器學習算法建立松材線蟲病監(jiān)測模型,結果顯示,哨兵-2號影像數據建立的監(jiān)測模型對受害松林的識別準確率高于Landsat-8遙感衛(wèi)星影像[4]。Wang等使用Landsat-8和Sentinel-2多光譜衛(wèi)星圖像來繪制我國北方人工林中樹種,研究發(fā)現,Sentinel-2圖像在所有分類試驗中表現均優(yōu)于Landsat-8圖像,研究了Sentinel-2和Landsat-8數據在估算森林類型方面的差異,得出Sentinel-2優(yōu)于Landsat-8的結論[5]。韓濤等研究使用Sentinel-2A和Landsat-8影像提取油菜種植面積,并比較2種影像在不同分類方法和條件下的油菜識別精度,結果表明,Sentinel-2A 影像具有更高的光譜特征可分離性,并且在支持向量機分類器下具有更高的油菜識別精度[6]。Korhonen等基于Sentinel-2A和Landsat-8衛(wèi)星影像提取森林樹冠覆蓋度和葉面積指數信息,研究結果表明,相比Landsat-8衛(wèi)星影像,Sentinel- 2A衛(wèi)星影像具有更優(yōu)秀的提取效果[7]。黃家興等利用Sentinel-2和Landsat-8數據計算5種植被指數,與野外實測地上生物量(AGB)建立草地AGB遙感估算模型,結果表明,基于Sentinel-2數據建立的AGB估算模型總體上優(yōu)于Landsat-8的估算結果[8]。然而,綜合研究Sentinel-2和Landsat-8遙感影像對各種方法棉花識別的影響研究較少。
上述研究一般都是在客戶端環(huán)境中進行,在一定程度上效率較低,難以滿足大面積應用的需求。遙感云計算平臺的出現,改變了傳統(tǒng)的遙感數據處理和分析模式,為遙感大數據挖掘提供了前所未有的機遇,使得大區(qū)域的分析和應用成為可能[9]。Google Earth Engine(GEE)云平臺利用谷歌強大的計算能力和龐大的在線數據,實現大規(guī)模遙感數據處理和挖掘分析。在實際操作過程中,用戶可以找到GEE平臺發(fā)布的大數據產品,結合自己的實際需求,完成在線計算和操作,大大減少了數據采集和處理的工作量。這一技術已經被廣泛應用于制作農田、城市、森林、濕地和水體等大尺度的地圖[10],特別是在農作物種植的制圖方面,該技術表現出了重要的優(yōu)勢[11-12]。
GEE云平臺嵌入了全球范圍內的多源遙感數據,如Landsat和Sentinel,提供了強大的算法處理和云計算能力。到目前為止,在GEE云平臺上使用Sentinel-2和Landsat-8數據進行棉花鑒定的對比研究仍然很少。本研究利用GEE云平臺上的Sentinel-2和Landsat-8圖像,采用不同的分類方法提取棉花種植區(qū)。此外,利用實地數據和官方統(tǒng)計數據對提取精度進行對比分析,探索Sentinel-2和Landsat-8數據在種植結構復雜的大規(guī)模地區(qū)提取棉花種植面積的能力。通過大量的對比分析,本研究有望為南疆阿克蘇地區(qū)的農業(yè)現代化提供潛在的機遇,為學者在棉花分類數據源和分類算法的選擇上提供可靠的參考信息。
阿克蘇地區(qū)位于新疆南部,地處39°30′~42°41′N,78°03′~84°07′E之間(圖1)。主要由2個縣級市和7個縣組成,面積13.13萬km2。阿克蘇地區(qū)地勢北高南低,由西北向東南傾斜。此外,阿克蘇地區(qū)地處溫帶大陸性氣候帶,內陸較深,四周群山環(huán)繞,使得當地降水非常稀少和干燥。但高寒河流水資源豐富,日照時間長,是典型的灌溉農業(yè)區(qū)。該地區(qū)主要作物有棉花、水稻、冬小麥、玉米等,其中棉花是主要的經濟作物。
1 材料與方法
1.1 數據源及預處理
根據數據的可獲得性,選取研究區(qū)2021年7月10日至2021年8月20日的Sentinel-2和Landsat-8云量低的影像數據進行棉花種植信息提取,該時相正值棉花花玲期,遙感影像質量較好。在預處理中,由于Landsat-8和Sentinel-2數據都來自于GEE云平臺,而GEE云平臺中存儲的所有Landsat-8和Sentinel-2數據都已進行過大氣校正與輻射定標,所以僅需利用阿克蘇地區(qū)的矢量數據裁剪出Landsat-8和Sentinel-2數據的對應影像。
1.2 研究區(qū)土地利用類型劃分及樣本數據處理
根據2021年5—6月在研究區(qū)野外考察所采集的樣本點并且利用GEE云平臺最新高清影像,將天然河流、人工養(yǎng)殖水面、水庫等統(tǒng)一歸入水體;將棗樹、蘋果樹和其他植被等統(tǒng)一歸為樹木;將沙漠、冰川和裸土統(tǒng)一歸為裸地;將住宅、學校、工廠等歸為建筑用地;將稻田歸為水稻;將棉花田歸為棉花。由于棉花花玲期與其他作物光譜特征差異顯著,區(qū)分較為容易,是提取棉花的關鍵物候期。綜上,最終確定6種分類類型:棉花、建筑用地、樹木、水稻、裸地、水體。經過篩選,可用阿克蘇地區(qū)的樣本點共計4 337個(表1),并按照隨機原則將其中80%作為訓練樣本,20%用作驗證樣本,以進行對各類別的識別與分類后的精度評價。
1.3 植被指標提取
遙感地物識別的理論基礎是在于各種地物對波譜產生的反應不同,由于不同的波譜反應就構成了地物間光譜值的差異性,因此通過對光譜差異性的分析研究,最終可以作為棉花識別的理論基礎。健康的綠色植物對紅波段和近紅外波段的反射差異較大,因此本研究根據Landsat-8和Sentinel-2遙感影像光譜波段特征,利用紅波段和近紅外波段建立了相應的植被指數,用于對棉花遙感信息的識別。用差值植被指數(DVI)來識別棉花的特征植被指數,DVI是2個波段之差,對土壤背景變化特別靈敏,能很好地識別植被與土壤。計算公式為
DVI=RNIR-RRed。(1)
式中:RRed為紅波段的反射率;RNIR為近紅外波段的反射率。
1.4 分類系統(tǒng)及技術路線
Landsat-8和Sentinel-2數據利用GEE云平臺,分別使用最小距離法(MDC)和隨機森林法(RF)與支持向量機法(SVM)進行分類,并根據驗證點構建混淆矩陣,以區(qū)分各方法的分類精度,同時,通過對比3種分類方法在不同空間分辨率影像下,所提取對應棉花面積與官方數據值之間的差異,并對差異性原因進行分析。其研究技術路線見圖2。
選擇合適的分類方法對提高分類精度具有重要影響[13]。在本研究中,選擇了3種廣泛使用的方法來評估分類性能,包括最小距離分類法(MDC)[14]、隨機森林法(RF)[15]和支持向量機法(SVM)[16-18]。
(1)最小距離分類法(MDC)。
最小距離分類法(MDC)是分類器里面最基礎的一種分類方法。在一個n維空間中,用最小距離分類法(MDC)先求每個已知類別XA(用矢量表示是XA1,XA2,…,XAn)的各個維度的平均數,產生一個平均數,就形成一個平均數UA(用向量表示是UA1,UA2,…,UAn),當A為類別的名稱時,XA是類別A的樣本特征集合,XA1是類別A的第1維特征集合,UA1是第1維特征集合的平均數,n為總的特征維數;同理,求得另一種類別XB(用矢量表示是XB1,XB2,…,XBn)的平均數UB(用向量表示是UB1,UB2,…,UBn)。對待分類的樣本特征向量為x,可以依次求與XA和XB之間的一段距離d(x,uA)和d(x,uB),以歐氏距離法為例,間距的計算公式如下:
d(x,ui)=|x-ui|2=(x-ui)T(x-ui)=xTx-(xTui+uTi-uTiui)。(2)
然后找出在d(x,uA)和d(x,uB)之間的最小值,如果前者小,則x屬于A類,如果后者小,則x屬于B類。MDC的原理圖見圖3。
(2)隨機森林法(RF)。
隨機森林是一種精度很高的分類算法,可用于處理大量輸入數據,計算效率和速度都很高,被廣泛應用于各個領域[15]。簡單地說,RF分類器由1組使用訓練數據中的自舉樣本訓練的分類樹組成。在每個引導樣本中,大約 2/3 的訓練數據(袋中樣本)用于生長未修剪的分類(或回歸)樹,其余的樣本(袋中樣本)用于估計袋中誤差。每棵樹都是通過遞歸算法將數據劃分為節(jié)點,直到每個節(jié)點都包含非常相似的樣本,或者直到滿足一個停止條件。后者的例子達到了最大深度,或者當節(jié)點上的樣本數量低于預定義的閾值時。RF使用基尼指數(Gini index)找到最佳特征和圖點,將訓練樣本分成同質組(類)。隨機森林的一個關鍵特征是,在尋找最佳分割點時,只評估所有可用特征的隨機子集[19]。子集中的特征數量由用戶控制,通常稱為mtry[20]。因此,對于RF所使用的大型樹,至少可以想象,在生長樹的同時,在某個時候搜索分裂點時,所有的特征都可能被使用。最終的分類結果是通過考慮從所有樹中計算的多數投票來獲得的,這就是為什么RF被稱為裝袋(bagging)方法。隨機森林模型示意見圖4。
(3)支持向量機法(SVM)。
SVM是Vapnik在1995年提出的一種基于統(tǒng)計學習理論的機器學習方法[21]。它通過自動尋找具有較好分類區(qū)分能力的支持向量,構造分類器,使類間間隔最大化,被認為是一種分類精度較高的算法。支持向量機的基本策略是在高維空間中找到一個超平面,將訓練數據分離為類,使類成員最大限度地分開。換句話說,SVM找到最大裕度的超平面,其中裕度是從每個類的最近點到超平面的距離之和。邊緣上的點稱為支持向量。SVM方法的原理圖見圖5。
2 結果與分析
2.1 分類結果的準確性評價
表2列出了不同分類方法和衛(wèi)星數據的驗證指標。由表2可知,Sentinel-2圖像MDC的總體精度為85.5%,Kappa系數為0.818%,是所有分類結果中最低的。其余類型總體精度和Kappa系數均在86.1%和0.822及以上。其中,結合Sentinel-2數據的RF模型的精度最高,總體精度和Kappa系數分別達到97.4%和0.967%。基于整個指標,發(fā)現用戶精度的最大值和最小值分別為99.1%和91.0%。此外,制圖精度的最大值和最小值分別為99.4%和97.9%。生產者精度和用戶精度均較高,說明分類結果滿足本研究的制圖需求。所選圖像可能是在棉花花鈴期階段,光譜特征明顯,適合與其他圖像進行區(qū)分,取得了滿意的結果。
2.2 面積比較與統(tǒng)計和影像衍生結果
本研究采用3種分類方法對Landsat-8和Sentinel-2圖像的棉花種植面積進行了比較,并與新疆2021年統(tǒng)計年鑒中的統(tǒng)計數據[22]進行比較。通常,當相對誤差大于0時,往往表明在提取棉花種植面積的過程中存在誤分類。另一方面,當相對誤差小于0時,則表明最終分類圖中出現了遺漏。據統(tǒng)計數據(圖6)顯示,2021年阿克蘇地區(qū)棉花預計種植面積為780.170 km2。通過Sentinel-2圖像和RF獲得的棉花種植面積為 792.546 km2,制圖精度為98.4%,相對誤差值為1.6%。這一比較結果表明,在Sentinel-2衍生的棉花地圖中,局部區(qū)域可能存在一些錯誤分類,但總體結果是令人滿意的。其中,Landsat-8影像的MDC衍生棉花面積為565.848 km2。該結果在面積估計方面的一致性僅為72.5%,相對誤差高達 -27.5%,說明最終地圖存在很大的分類錯誤。SVM方法中,Sentinel-2和Landsat-8圖像得到的棉花種植面積分別為747.185 km2和914.930 km2,相對誤差分別為 -4.2% 和17.3%。這種不一致可能是由于Sentinel-2的空間分辨率較高,很容易漏掉一些像素,而30 m的Landsat-8圖像很可能會遇到錯誤分類。
2.3 提取方法對比分析
結合表2和圖7可以發(fā)現,基于Sentinel-2的棉花圖,基于RF模型的總體精度、Kappa系數和估計面積最好,分別比SVM和MDC高1.7百分點、0.021和3.4%及11.9百分點、0.149和19.5%。對于Landsat-8數據,RF仍然比SVM和MDC表現出更高的性能,比SVM的總體精度、Kappa系數和估計面積分別增加了1.4百分點、0.031和7.5%,比MDC分別增加了4.0百分點、0.064和18.4%。
2.4 數據源差異性分析
通過分析不同方法在棉花制圖中數據源的不同性能。結果表明,與Landsat-8數據相比,支持向量機和隨機森林方法在Sentinel-2數據上獲得了更高的精度。具體而言,使用RF模型,Sentinel-2數據棉花制圖結果的總體精度和Kappa系數分別比Landsat-8數據高7.3百分點和0.081。同樣,對于支持向量機模式,Sentinel-2得到的總體精度和Kappa系數分別比Landsat-8數據高7.0百分點和0.091。相反,從Sentinel-2數據中獲得的MDC的總體精度和Kappa系數分別比Landsat-8數據低0.6百分點和0.004。這種獨特的現象可能由于以下原因:在分類過程中,MDC只考慮了不同樣本集的平均值,忽略了不同樣本的分布規(guī)律,更忽略了不同類別之間的相關性,導致Sentinel-2數據與Landsat-8數據相比性能較差。
2.5 棉花種植區(qū)空間分布
不同方法和影像數據的空間棉花種植面積如圖8所示,雖然不同方法存在差異,但仍能清楚地看出,棉花主要種植在阿克蘇、庫車、阿拉爾、新河、阿瓦提、沙雅等地區(qū)。這些地區(qū)水源豐富,地勢平坦,耕地面積大,日照充足,適宜棉花種植。在其他地區(qū),由于水源分布不均、干旱和缺乏降雨,也偶有棉花種植。
3 討論
本研究利用Google Earth Engine(GEE)云平臺上的Sentinel-2和Landsat-8遙感影像,對新疆南部阿克蘇地區(qū)2021年棉花種植面積的提取進行了探索。為了評價不同方法的性能,選擇最小距離法(MDC)、隨機森林法(RF)和支持向量機法(SVM)進行分類,然后利用現場數據和統(tǒng)計數字進行全面
評估。基于這些比較和評價,期望對我國最重要的棉花產地新疆的棉花種植測繪提供一些參考。
在6種提取組合(2種圖像源和3種分類方法)中,除了MDC和Sentinel-2組合的精度較低外,其他組合的總體精度和Kappa系數分別在86.1%和82.2%及以上,表明取得了滿意的精度。此外,用戶和生產者對所有組合的精度在91.0%及以上。這種高精度可能與所選擇的時間窗口有關,它在棉花和其他土地類型之間表現出良好的可分離性。
本研究發(fā)現,對于相同的遙感(RS)數據,RF模型在總體精度和Kappa系數方面優(yōu)于SVM和MDC,SVM的性能優(yōu)于MDC。MDC的最差性能可能是由于其固有的缺點,即只考慮每種樣本的均值向量,而不考慮每種樣本的分布和類之間的相關性。SVM方法屬于一種基于統(tǒng)計學習理論的機器學習方法,它的優(yōu)點是自動找到那些在區(qū)分不同類中起重要作用的支持向量,然后構建一個分類器來最大化類之間的間隔。由于難以大面積采集訓練樣本,由SVM模型推導出的各項精度排在第2位。RF模型由多棵決策樹組成,利用了集成策略。與SVM和MDC方法相比,RF模型能有效避免過擬合問題,具有較高的穩(wěn)定精度。
4 結論
本研究利用Google Earth Engine(GEE)云平臺上的多源Landsat-8和Sentinel-2影像,結合原始光譜和植被指數特征,提取新疆阿克蘇地區(qū)棉花種植信息。利用最小距離法(MDC)、隨機森林法(RF)和支持向量機法(SVM)等3種不同的方法來評估Landsat-8和Sentinel-2圖像對最終棉花制圖的影響。通過大量的評價,對阿克蘇地區(qū)的棉花種植進行測繪,最終得出以下結論,以期對今后的棉花種植有一定的指導意義。
對于MDC,本研究發(fā)現,在大面積復雜結構的復雜條件下,不適合用Sentinel-2圖像作為輸入進行棉花分類。此外,基于MDC、RF和SVM的Landsat-8圖像,以及基于SVM模型的Sentinel-2圖像,達到了可接受但不是預期的精度。采用隨機森林模型的Sentinel-2圖像在大面積復雜種植結構的棉花測繪中實現了最佳和最優(yōu)的精度。GEE平臺配備了豐富的自由遙感圖像數據,在加快棉花種植面積識別等影像應用方面越來越重要。
參考文獻:
[1]周 潔. 新疆棉花生產中的環(huán)境成本研究[D]. 阿拉爾:塔里木大學,2014.
[2]劉傳跡,金曉斌,徐偉義,等. 2000—2020年南疆地區(qū)棉花種植空間格局及其變化特征分析[J]. 農業(yè)工程學報,2021,37(16):223-232.
[3]Drusch M,Del Bello U,Carlier S,et al. Sentinel-2:ESA’s optical high-resolution mission for GMES operational services[J]. Remote Sensing of Environment,2012,120:25-36.
[4]邱萬林,宗世祥 .基于多光譜衛(wèi)星影像與機器學習算法的松材線蟲病受害林分識別研究[J]. 環(huán)境昆蟲學報,2023,45(2):408-420.
[5]Wang M Y,Zheng Y,Huang C Q,et al. Assessing Landsat-8 and Sentinel-2 spectral-temporal features for mapping tree species of northern plantation forests in Heilongjiang Province,China[J]. Forest Ecosystems,2022,9:100032.
[6]韓 濤,潘劍君,張培育,等. Sentinel-2A與Landsat-8影像在油菜識別中的差異性研究[J]. 遙感技術與應用,2018,33(5):890-899.
[7]Korhonen L,Packalen P,Rautiainen M. Comparison of Sentinel-2 and Landsat 8 in the estimation of boreal forest canopy cover and leaf area index[J]. Remote Sensing of Environment,2017,195:259-274.
[8]黃家興,吳 靜,李純斌,等. 基于Sentinel-2和Landsat 8數據的天祝縣草地地上生物量遙感反演[J]. 草地學報,2021,29(9):2023-2030.
[9]桑國慶,唐志光,毛克彪,等. 基于GEE云平臺與Sentinel數據的高分辨率水稻種植范圍提取——以湖南省為例[J]. 作物學報,2022,48(9):2409-2420.
[10]Gorelick N,Hancher M,Dixon M,et al. Google Earth Engine:planetary-scale geospatial analysis for everyone[J]. Remote Sensing of Environment,2017,202:18-27.
[11]Dong J W,Xiao X M,Menarguez M A,et al. Mapping paddy rice planting area in northeastern Asia with Landsat 8 images,phenology-based algorithm and Google Earth Engine[J]. Remote Sensing of Environment,2016,185:142-154.
[12]Jin Z N,Azzari G,You C,et al. Smallholder maize area and yield mapping at national scales with Google Earth Engine[J]. Remote Sensing of Environment,2019,228:115-128.
[13]Wang P,Fan E,Wang P. Comparative analysis of image classification algorithms based on traditional machine learning and deep learning[J]. Pattern Recognition Letters,2021,141:61-67.
[14]Patil M B,Desai C G,Umrikar B N. Image classification tool for land use/land cover analysis:a comparative study of maximum likelihood and minimum distance method[J]. International Journal of Geology,Earth and Environmental Sciences,2012,2(3):189-196.
[15]Breiman L. Random forests[J]. Machine Learning,2001,45(1):5-32.
[16]Vapnik V,Chapelle O. Bounds on error expectation for support vector machines[J]. Neural Computation,2000,12(9):2013-2036.
[17]Mountrakis G,Im J,Ogole C. Support vector machines in remote sensing:a review[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2011,66(3):247-259.
[18]路 陽,楊化龍,陳 宇,等. 基于TSDPSO-SVM的水稻稻瘟病圖像識別[J]. 江蘇農業(yè)科學,2022,50(23):164-170.
[19]Chan J C W,Paelinckx D. Evaluation of random forest and adaboost tree-based ensemble classification and spectral band selection for ecotope mapping using airborne hyperspectral imagery[J]. Remote Sensing of Environment,2008,112(6):2999-3011.
[20]Zhang C K,Zhang H Y,Zhang L P. Spatial domain bridge transfer:an automated paddy rice mapping method with no training data required and decreased image inputs for the large cloudy area[J]. Computers and Electronics in Agriculture,2021,181:105978.
[21]Vapnik V N. The nature of statistical learning theory[M]. 2nd ed.New York:Springer,2000.
[22]新疆維吾爾族自治區(qū)統(tǒng)計局. 新疆統(tǒng)計年鑒2021[J]. 北京:中國統(tǒng)計出版社,2021.