楊昆 王加勝



摘要 應用高分辨率的Sentinel-2A數據,提出了隨機森林算法結合多特征的烤煙遙感提取方法。然后將支持向量機和分類回歸樹算法與隨機森林算法進行了對比試驗,3種分類器與光譜+地形+紋理+纓帽特征組合的平均驗證精度分別為63%、88%和94%,隨機森林分類器結合光譜+地形+紋理+纓帽特征組合的分類精度最佳,制圖精度達到90%,用戶精度為98%,總體精度為96%,Kappa系數為0.94。結果顯示,研究區烤煙的最佳分類時相為4月下旬至5月下旬;隨機森林算法結合光譜+地形+紋理+纓帽特征的方法能夠精確地對研究區烤煙種植區進行遙感提取,為云南高原山區農作物提取提供技術參考。
關鍵詞 烤煙;隨機森林;Sentinel-2A;特征優化;曲靖市
Abstract A remote sensing extraction method of flue-cured tobacco based on high-resolution sentinel-2A data was proposed. Then the support vector machine and classification regression tree algorithm were compared with the random forest algorithm.The average verification accuracy of the three classifiers combined with spectrum,terrain,texture and tassel cap features were 63%,88% and 94%,respectively.The classification accuracy of RF classifier combined with spectral,terrain,texture and tassel cap features was the best ,with mapping accuracy of 90%,user accuracy of 98%,overall accuracy of 96% and Kappa coefficient of 0.94.Results showed that the best classification period of flue-cured tobacco in the study area was from late April to late May;RF algorithm combined with spectrum,terrain,texture and tassel cap features could accurately extract tobacco planting area in the study area,which provided technical reference for crop extraction in Yunnan plateau mountainous area.
Key words Flue-cured tobacco;Random forest;Sentinel-2A;Feature optimization;Qujing City
曲靖市借助得天獨厚的地理位置和氣候條件,生產出了優質的煙葉,是亞洲最大的優質烤煙生產基地。但是隨著近幾年來氣候條件的惡化,對烤煙的種植空間的時空變化產生了一定的影響。因此合理優化烤煙種植空間結構,對烤煙種植區進行監測和制圖具有重要的現實意義。
GEE(Google Earth Engine)云計算平臺是一個集數據獲取、數據運算以及可視化分析于一身的平臺。它強大的云計算能力能夠讓用戶幾秒鐘至幾分鐘之內快速完成數據的獲取、數據的預處理、數據的分析以及展示,極大提高了影像處理的效率,節約時間成本。因此,近幾年來GEE云計算平臺被廣泛應用在農情監測領域,比如Dong等[1]基于GEE平臺,使用Landsat8影像對2014年東北亞地區的水稻種植區進行了提取,其中生產者精度為73%,用戶精度達到了92%。
目前,中分辨率影像在大面積農作物識別領域廣泛應用。柳文杰等[2]利用國產衛星和MODIS融合數據對湖南洞庭湖區域的水稻種植區進行了提取,結果表明NDVI+物候特征的方法參與水稻分類具有良好的效果。但是云南高原山區地形起伏不平,農作物種類繁多,很多耕地不連成片且不規則,存在某個區域有多種農作物種植,如果使用中分辨率的衛星影像,很容易產生混合像元,大大降低制圖精度。因此,高精度的衛星影像是高原山區農作物提取的關鍵之一。
雖然研究人員對大量農作物類型提取進行了研究,但是鮮見烤煙的遙感提取研究。鑒于此,筆者以云南省曲靖市馬龍、陸良、師宗以及羅平4區縣為研究區,基于GEE平臺,應用高分辨率的Sentinel-2A數據,提出了隨機森林算法結合多特征的烤煙遙感信息提取方法,并與支持向量機和分類回歸樹算法進行對比,研究隨機森林算法在該地區烤煙識別的適用性,以期為云南高原山區農作物識別、農業規劃和決策提供技術支持。
1 材料與方法
1.1 研究區概況
研究區馬龍、陸良、師宗以及羅平4區縣位于云南省曲靖市南部,東臨貴州省,西與昆明市接壤,南與紅河州、文山州毗鄰(103°16′~104°43′E,24°20′~25°37′N),面積9 655 km2左右,約占全市面積的33.4%。研究區地處云貴高原,珠江源頭,地形屬于高原山地地形,地勢由西北向東南傾斜。研究區為亞熱帶高原季風氣候,年平均氣溫14~16 ℃,年均降水量900~1 600 mm,年均日照時數1 500~2 500 h。烤煙的生長期為4—9月份,其物候歷信息如表1所示。
1.2 數據與預處理
該研究采用的數據包括Sentinel-2A影像數據、SRTM數字高程數據以及樣本數據。具體描述如下:①Sentinel-2A影像數據。與烤煙最難區分的農作物類型就是玉米,烤煙與玉米的外形相似,因此光譜特征很相似,但它們的物候特征存在很大差異,烤煙在4月下旬到5月中旬移栽完之后要覆蓋地膜,以搶抓積溫,保持熱量充足,同時使墑內水分充足,8月下旬至9月上旬進行采收,玉米則在3月下旬至4月上旬播種完之后覆膜,有些地區不覆膜,8月下旬至9月上旬進行采收。烤煙和玉米的覆膜時間相差1個多月,因此當4月下旬至5月下旬烤煙存在地膜的時候,玉米的覆膜期快要結束,除此之外其他農作物這時期不需要覆蓋地膜。因此關鍵物候期影像為4月下旬至5月下旬,考慮云影像,收集了4月27號的云量低于20的影像5幅。數據來源為GEE平臺,產品級別為1C級,該級別經過了數字高程模型校正,影像空間分辨率為10 m,總共13個波段。預處理:首先計算QA60波段Bit10和Bit11的值,設置2者的值為0得到云掩膜,利用云掩膜去除影像中的云信息,然后對5幅影像進行中值合成,最后裁剪研究區范圍,得到最佳分類影像。②SRTM數字高程數據。選用的是GEE平臺上由NASA噴氣推進實驗室提供的航天飛機雷達地形測繪任務(The Shuttle Radar Topography Mission,SRTM[3])數字高程數據,分辨率為30 m,坐標系統采用WGS84,定位精度為1 m,高程精度為±16 m,影像集ID為“USGS/SRTMGL1_003”。預處理:將SRTM數據按照研究區進行裁剪即可。③樣本數據。樣本數據分為實地和線上采集2種方式進行,將研究區主要地物劃分為烤煙、其他農作物、建筑用地、林地和水體,總共采集12 553個樣本,其中烤煙2 157個,其他農作物6 077個,建筑用地1 883個,林地1 683個,水體753個。實地采集數據時間為2019年9月21—24日,實地總共采集131個點樣本。線上采集是在Google Earth Pro上通過目視解譯法完成的,樣本遵循隨機、均勻的原則。所有樣本數據70%用作訓練數據,30%用作驗證數據。
1.3 研究方法
基于GEE平臺,通過物候分析選擇關鍵物候期哨兵2數據進行快速地去云、拼接與裁剪,得到最佳時相影像數據,然后對光譜、紋理、地形以及纓帽特征進行構建與提取,利用J-M距離公式對特征集進行優化,最后分別使用支持向量機(Support Vector Machine,SVM)、分類回歸樹(Classification And Regression Trees,CART)以及隨機森林(Random Forest,RF)算法結合優化后的特征對影像進行分類以及精度評價(圖1)。
1.3.1 特征構建。
1.3.1.1 光譜特征。該研究光譜特征包括原始特征和光譜指數。原始特征包括其中的B2、B3、B4、B5、B6、B7、B8、B8A、B11和B12總共10個原始光譜波段 。通過計算NDVI[4](歸一化植被指數)、EVI[5](增強型植被指數)、MSAVI[6](修改型土壤調整植被指數)、NDWI[7](歸一化水體指數)、LSWI[7](地表水分指數)以及NDBI[8](歸一化建筑指數)6種常見光譜指數,并將它們分別加入原始特征空間的構建。
1.3.1.2 地形特征。地形特征作為研究區的突出特點之一。研究區所處地形為高原山區,烤煙一般需要連片的大田以及靠近水源,所以大體種植在相對平緩地勢較低的地方,很少種植在坡度較大海拔較高的區域。而其他農作物和林地往往可以在坡地進行種植和生長,因此可以利用地形特征更好地區分烤煙與其他植被,提高烤煙的提取精度。由于研究區海拔差異不明顯,將研究區SRTM數字高程數據計算得到的坡度(Slope)、坡向(Aspect)以及山體陰影(Hillshade)3個特征分量分別作為獨立波段參與原始特征的構建。
1.3.1.3 紋理特征。紋理是遙感影像分類中重要的特征之一,它表現的是影像的表面或者結構屬性。烤煙與玉米的光譜特征以及紋理特征都很相似,但與其他農作物紋理特征有很大不同,該研究可以很好地通過光譜的差異來解決烤煙和玉米、其他農作物的混分,也可以通過紋理特征的差異區分烤煙與其他農作物。基于灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)的統計方法[9-10]對紋理特征進行計算,將其中得到的角二階矩(NDVI_asm)、對比度(NDVI_contrast)、相關性(NDVI_corr)、方差(NDVI_var)、逆差矩(NDVI_idm)、熵(NDVI_ent)6個紋理特征統計量參與到原始特征的構建中。
1.3.1.4 纓帽變換特征。纓帽變換即坎斯-托馬斯變換(Kauth-Thomas Transformation,KT[12]),又稱纓帽變換(Tasselled Cap Transformation,TCT)。纓帽變換的轉換系數是固定的,依賴于影像的傳感器,纓帽變換通過這個轉換系數將多光譜影像變換到具有同樣多波段數的特征空間,其中得到的前3個特征分量為亮度指數、綠度指數、濕度指數。其變換公式如下:
式中,Y表示變換后的影像,C表示對應影像的轉換系數矩陣,X表示變換前的原始影像。該研究的影像為哨兵2影像,基于常用的6個波段(Blue、Green、Red、Nir、Swir1、Swir2)和哨兵2變換矩陣系數[12](表2),通過公式(7)經過纓帽變換后選擇前3個重要波段Brightness、Greenness、Wetness作為獨立波段加入到原始特征的構建。
1.3.2 特征優化方法。如果將所有的特征都加入到分類器中,會造成數據的冗余,加重分類器的負擔,最終導致分類精度大大降低,因此特征優化極其重要。該研究選擇的是通過J-M距離公式計算樣本間分離度的特征選擇方法,J-M距離的基本思想是選擇對類與類之間區分度大的屬性。基于某個特征或特征組合的類與類之間的J-M距離計算公式如下:
式中,Bij為某個特征或特征組合的巴氏距離,反映了類與類之間的重疊量;Mi與Mj為對應的類別的某個特征的均值向量;Vi與Vj分別是對應的類別的某個特征的協方差矩陣。其中JM的取值范圍是0~2,取值越接近于0表示樣本分離度越小,說明該特征完全混淆類別,取值越接近于2表示樣本分離度越大,說明該特征區分類別越佳。為了更好地排除區分度小的特征,選擇JM距離大于1且接近2的前2位特征[13-16]作為優化后的特征參與到分類中。
1.3.3 分類方法。隨機森林算法是一種近年來比較流行且廣泛應用的集成學習方法[17]。它的基本組成是決策樹,由成百上千個決策樹共同對樣本進行訓練和分類,綜合考慮多個學習器的預測結果最后做出決策。隨機森林的核心就是隨機性,體現在:①樣本的隨機。對于每一棵決策樹,使用bootstrap采樣方法從訓練樣本中有放回的隨機抽取一部分訓練樣本,作為每一棵決策樹的訓練集,沒有被抽到的樣本作為袋外樣本,用來評估隨機森林的袋外誤差。②特征的隨機。隨機從樣本的所有特征中選擇特征子集,每次樹分裂時,從特征子集中選擇最優特征。有了這2個隨機性,在處理復雜且高維的數據時,隨機森林就不會出現過擬合現象,抗噪能力很強。
1.3.4 精度評價方法。采用混淆矩陣[18-19]的方法評估模型的優劣。具體評價指標有制圖精度、用戶精度、總體精度以及Kappa系數,它們從不同的角度評估分類精度。
2 結果與分析
2.1 特征優化結果 通過計算每組地類組合的每種特征的J-M距離,選擇每組組合中每類特征的J-M距離大于1且排名前2位的特征,最后得到NDVI、MSAVI、NDBI、NDWI、EVI_min、slope、NDVI_asm、NDVI_idm、NDVI_ent和greenness共10個最優特征。
2.2 3種分類器精度比較與分析 分類器選擇支持向量機、CART決策樹與隨機森林分類器進行對比試驗。特征優化使用3個分類器和4種特征分別進行組合,采用交叉驗證策略進行精度的比較(表3),交叉驗證策略如下:①每次隨機取樣本的70%用來分類,其余30%用來驗證;②每種組合每次計算分類的總體精度作為驗證精度,總共計算10次,10次結果的平均值作為每種組合的平均驗證精度。
3種分類器中,SVM分類器的平均驗證精度最低,分類效果最差,SVM分類器平均驗證精度僅63%,而CART決策樹和隨機森林分類器的平均驗證精度分別為88%和94%。以隨機森林分類器為例,僅結合光譜特征的平均驗證精度為85%。加入地形特征之后提升了2%,說明在研究區復雜地形中加入坡度因子有助于區別地類;加入紋理特征(角二階矩陣、逆差矩和熵)之后提升了4%,達到了89%,說明對于表面差異大的地類能夠通過加入紋理特征很好地區分;加入纓帽特征(即綠度)之后提升為88%,說明綠度特征的加入能夠更好區分植被與非植被以及不同植被。結合地形+紋理+纓帽特征的平均驗證精度為81%,而結合光譜+地形+紋理+纓帽特征的平均驗證精度提升了13%,達到了94%,說明光譜特征在研究區的地物分類中扮演著至關重要的角色。
2.3 精度驗證以及烤煙種植區分布
由于隨機森林分類器結合光譜+地形+紋理+纓帽組合的分類效果最佳,其第6次精度驗證的混淆矩陣如表4所示,烤煙的生產者精度達到90%,烤煙測試樣本總計647個,其中正確分類580個,未正確分類67個,包括61個被分類為其他農作物,6個被分類為建筑用地,用戶精度達到98%,10個其他農作物和3個建筑用地被錯分為烤煙。總體精度為96%,Kappa系數為0.94。
圖2為2019年4月份烤煙、水體、其他農作物、林地和建筑用地遙感提取結果,為了突出烤煙種植區分布,只保留水體,將其他農作物、林地以及建筑用地歸并為其他類顯示。
從圖2可以看出,研究區烤煙馬龍縣主要分布在北部的王家營鎮、西部的舊縣鎮、西南的馬鳴鄉以及大莊鄉、東部以及東南部的月望鄉、納章鎮,馬龍縣烤煙整體分布比較均勻,陸良縣包括中部的芳華鎮、西南的小百戶鎮以及大莫古鎮、東部和東南部的活水鄉以及龍海鄉、南部的召夸鎮,師宗縣主要分布在彩云鎮以及龍慶鄉,南部以及東南部地區多為山區,地勢起伏太大,因此烤煙種植較少且零散分布,羅平縣烤煙主要分布在西北部的阿崗鎮,羅平街道、臘山街道以及板橋鎮分布較少,主要原因是該地區油菜花與烤煙實行輪作制,此時有些油菜花還沒收割,因此烤煙分布較少。
3 結論
基于GEE云平臺,通過烤煙物候特征選取了最佳分類時相,對覆蓋研究區的2019年4月27號的四景影像進行去云、鑲嵌和裁剪等預處理,構建了光譜、地形、紋理和纓帽特征,并通過計算J-M距離來優化原始特征空間得到最優特征,之后進行了SVM、CART以及Random Forest共3種分類器與最優特征的組合對比試驗,并對精度進行了評估,快速提取了曲靖市馬龍、陸良、師宗以及羅平4區縣的烤煙種植區空間分布信息,主要結論如下:
(1)烤煙提取的難點之一在于和玉米的區分,通過物候分析其存在覆膜的時間差且反射率差異大,從而得到研究區烤煙的最佳分類時相在4月下旬至5月下旬。
(2)隨機森林分類器結合光譜+地形+紋理+纓帽特征的分類效果最佳,提取精度較高,表明該方法能夠有效地運用于區域烤煙種植區遙感提取,可為云南高原山區農作物識別提供技術參考。
由于云南地區云量較多,遮擋現象比較嚴重,對提取造成了一定的影響,因此獲得清晰且長時間序列的影像是后續農作物提取的研究重點。除此之外,研究區地處滇東高原山區,部分地區地勢起伏較大,農作物類型復雜且某些地方存在間作套種,與平原地區成片平坦的農田不同,很多耕地處在陡峭的斜坡上呈階梯狀(梯田),有些耕地會被斜坡陰影所遮蓋,給分類的精度帶來了一定的影響,雖然使用了10 m分辨率的哨兵數據,但仍存在一定的混合像元現象,因此今后需要借助更高精度的影像來提升提取精度,實現對農作物的精細化提取,進行農作物面積變化、產量估算以及驅動力因素等研究。
參考文獻
[1]DONG J W,XIAO X M,MENARGUEZ M A,et al.Mapping paddy rice planting area in northeastern Asia with Landsat 8 images,phenology-based algorithm and Google Earth Engine[J].Remote sensing of environment,2016,185:142-154.
[2]柳文杰,曾永年,張猛.融合時間序列環境衛星數據與物候特征的水稻種植區提取[J].遙感學報,2018,22(3):381-391.
[3]VAN ZYL J J.The Shuttle Radar Topography Mission (SRTM):A breakthrough in remote sensing of topography[J].Acta astronautica,2001,48(5/6/7/8/9/10/11/12):559-565.
[4]PETERS A J,WALTER-SHEA E A,JI L,et al.Drought monitoring with NDVI-based standardized vegetation index[J].Photogrammetric engineering and remote sensing,2002,68(1):71-75.
[5]王正興,劉闖,陳文波,等.MODIS增強型植被指數EVI與NDVI初步比較[J].武漢大學學報(信息科學版),2006,31(5):407-410,427.
[6]蔡宗磊,包妮沙,劉善軍.國產高分一號數據估算草地植被覆蓋度方法研究:以呼倫貝爾草原露天煤礦區為例[J].地理與地理信息科學,2017,33(22):32-38,44.
[7]YANG X C,ZHAO S S,QIN X B,et al.Mapping of urban surface water bodies from sentinel-2 MSI imagery at 10 m resolution via NDWI-based image sharpening[J].Remote sensing,2017,9(6):1-18.
[8]LI K N,CHEN Y H.A Genetic algorithm-based urban cluster automatic threshold method by combining VIIRS DNB,NDVI,and NDBI to monitor urbanization[J].Remote sensing,2018,10(2):1-21.
[9]宋榮杰,寧紀鋒,劉秀英,等.基于紋理特征和SVM的QuickBird影像蘋果園提取[J].農業機械學報,2017,48(3):188-197.
[10]PUISSANT A,HIRSCH J,WEBER W.The utility of texture analysis to improve per-pixel classification for high to very high spatial resolution imagery[J].Znternational journal of remote sensing,2005,26(4):733-745.
[11]CRIST E P.A TM Tasseled Cap equivalent transformation for reflectance factor data[J].Remote sensing of environment,1985,17(3):301-306.
[12]NEDKOV R.Orthogonal transformation of segmented images from the satellite sentinel-2[J].Comptes rendus de l'Academie bulgare des ences:Sciences mathematiques et naturelles,2017,70(5):687-692.
[13]NUSSBAUM S,NIEMEYER I,CANTY M J.SEaTH-A new tool for automated feature extraction in the context of object-based image analysis[C]//Proceedings of the 1st international conference on object-based image analysis(OBIA 2006).Salzburg:[s.n.],2006.
[14]余曉敏,湛飛并,廖明生,等.利用改進SEaTH算法的面向對象分類特征選擇方法[J].武漢大學學報(信息科學版),2012,37(8):921-924.
[15]陳安旭,李月臣.基于Sentinel-2影像的西南山區不同生長期水稻識別[J].農業工程學報,2020,36(7):192-199.
[16]蔣丹丹,盧剛,陳成.基于單極化TerraSAR-X影像提取建筑區研究[J].地理與地理信息科學,2016,32(1):60-65,127.
[17]BREIMAN L.Random forests[J].Machine learning,2001,45(1):5-32.
[18]HUANG D M,XU S J,SUN J Q,et al.Accuracy assessment model for classification result of remote sensing image based on spatial sampling[J/OL].Journal of applied remote sensing,2017,11(4)[2020-07-21].https://doi.org/10.1117/1.JRS.11.046023.
[19]鐘仕全,莫建飛,陳燕麗,等.基于HJ-1B衛星遙感數據的水稻識別技術研究[J].遙感技術與應用,2010,25(4):464-468.