王李娟,孔鈺如,楊小冬,徐 藝,梁 亮,王樹果
基于特征優選隨機森林算法的農耕區土地利用分類
王李娟1,孔鈺如1,楊小冬2,徐藝1,梁亮1,王樹果1
(1. 江蘇師范大學地理測繪與城鄉規劃學院,徐州 221116;2. 國家農業信息化工程技術研究中心,北京 100097)
為了提高農耕區土地利用分類精度,該文采用較高空間分辨率和豐富光譜信息的Sentinel-2數據生成光譜特征、無紅邊波段的植被指數、紅邊指數和紋理特征4種基本特征變量,并對以上特征變量優選后進行特征重要性排序,進而構建7種特征組合方案,基于隨機森林算法和支持向量機對農耕區土地利用信息進行提取并對比驗證分類精度。研究結果表明:通過特征優選的隨機森林算法進行土地利用信息提取效果最佳,總體精度達到88.24%,Kappa系數為0.84,精度優于相同特征變量下的支持向量機分類方法。該方法能夠有效提高農耕區土地利用分類精度,可為土地資源監測、管理提供技術支持和理論參考。
隨機森林算法;土地利用分類;農耕區;特征優選;Sentinel-2;紅邊指數
土地利用分類在土地動態監測、規劃與管理、合理開發與保護等方面具有重要作用,是當前全球環境變化研究領域的重要內容之一[1]。目前,隨著中國城市化進程逐漸加快,建設用地面積不斷增加,耕地面積不斷減少,及時精準獲取農耕區土地利用分類信息對合理規劃農業土地資源具有重要意義。遙感技術具有快速、同步監測、觀測范圍廣等優點,已然成為土地利用分類信息提取的重要手段之一[2-3]。近年來,在土地利用分類研究中,機器學習算法得到廣泛的應用,如最大似然法、支持向量機、隨機森林等。其中隨機森林算法具有分類精度高,處理多維數據變量能力強,訓練和預測速度快的特點,被廣泛應用于土地利用分類的研究[2]。
Saini等[4]基于Sentinel-2的光譜特征,采用隨機森林算法對印度農耕區進行土地分類信息提取,但是由于采用特征變量單一,對休耕地、甘蔗等類型分類精度較低。同時,有研究表明引入植被指數和紋理特征可以有效提高土地利用分類精度。張磊等[5]采用隨機森林算法提取黃河三角洲濕地信息,在Sentinel-2影像的光譜特征基礎上分別加入植被指數和紋理特征,可以顯著提高每個濕地類別的分類精度。此外,一些研究也證實紅邊指數在提高農耕區作物分類精度方面優勢明顯。劉佳等[6]利用RapidEye影像的紅邊波段,使用最大似然分類法對作物進行精細識別,總體分類精度提高6.7%,且對玉米和大豆的識別能力顯著提高;Yeom[7]利用RapidEye影像,對韓國水稻種植區域進行分類提取,紅邊波段的加入可以略微提高分類精度,尤其在單一時相的情況下。然而,由于多數包含紅邊波段的遙感衛星如RapidEye多為收費數據,因此使用紅邊指數提高農耕區土地利用分類精度的研究較少。2015年6月歐空局成功發射Sentinel-2遙感衛星,該衛星具有13個光譜波段,其中包含3個紅邊波段,空間分辨率達到10 m,雙星運行重訪周期僅為5 d,有效增強了對地觀測能力[8-9],而且向用戶免費提供數據。多光譜高分辨率Sentinel-2衛星對充分利用紅邊信息開展農耕區土地利用分類研究提供了新的數據源。
目前眾多的機器學習算法中,隨機森林算法盡管具有高效、簡單、抗擬合能力強、可以處理高維度數據等特點,但信息冗余造成隨機森林過于擬合,從而導致分類精度降低。眾所周知,所有特征參與分類必然導致信息冗余,影響分類精度。因此在使用隨機森林算法進行土地利用分類時,非常有必要對特征變量進行降維處理[10-11]。
為此,本研究擬采用Sentinel-2衛星數據構建光譜特征、無紅邊信息的植被指數、紅邊指數和紋理特征4種基本特征變量,對以上變量進行優化選擇和特征重要性評價,并采用隨機森林算法對比分析不同變量組合對農耕區土地利用分類結果的影響,篩選出最佳的組合方案,最后通過與支持向量機(support vector machine,SVM)分類結果進行對比驗證,評價隨機森林算法在農耕區土地利用分類的適用性。
研究區位于江蘇省徐州市銅山區和安徽省宿州市埇橋區交界處(34°05′23"N~34°07′36"N,117°07′16"E~117°09′37"E)(圖1)。該研究區地勢平坦開闊,四季分明,雨水充足,一年兩熟,以發展種植業為主,且區域內的土地利用類型豐富,包含蘇北地區典型農耕區全部主要土地利用類型。參照《土地利用現狀分類標準(GB/T21010—2007)》,研究區土地利用類型大體劃分為:有作物耕地、大棚、林地、水體、建設用地、未利用地。

圖1 研究區范圍
Sentinel-2衛星搭載的多光譜傳感器具有13個波段,包含10、20和60 m三種空間分辨率,其中10 m分辨率的波段為紅波段(Red)、綠波段(Green)、藍波段(Blue)、近紅外波段(NIR);20 m分辨率的波段為3個紅邊波段(RE1、RE2、RE3)、近紅外波段(Narrow NIR)、短波紅外(SWIR1、SWIR2);60 m分辨率的波段為海岸波段(coastal aersol)、水汽波段(water vapour)、卷云波段(SWIR cirrus)[12]。
本研究中采用的Sentinel-2數據來源于歐洲航天局的數據共享網站(https://scihub.copernicus.eu/),選取研究區無云且質量良好(2019年5月2日)的數據,產品等級為L1C級。Sentinel-2發布的L1C級數據已進行幾何校正和輻射校正,故采用ESA官方提供的SNAP軟件僅對數據進行大氣校正。大氣校正后輸出的波段分別為:紅波段(Red)、綠波段(Green)、藍波段(Blue)、紅邊波段(RE1、RE2、RE3)和近紅外(Narrow NIR),其中空間分辨率為20 m的波段被重采樣成10 m。
本研究基于現場實地踏勘并結合同期的Google Earth高分辨率影像采用目視解譯方式進行樣本點的采樣。2019年5月16日對研究區進行了實地調研,利用手持GPS對不同土地利用類型的樣本點進行定位,并通過Google Earth軟件目視解譯增加部分樣本類型。樣本點的選取情況為:有作物耕地70個、大棚20個、林地20個、水體20個、建筑用地50個以及未利用地20個。
本研究選取研究區4種特征變量:光譜特征、無紅邊植被指數和紅邊指數[13-22]、紋理特征,如表1所示。基于遙感影像進行土地利用分類時,Shoko和Mutanga[21]研究發現紅邊波段信息加入能夠有效提高土地利用分類的精度。為此,選取遙感影像的7個波段的反射率作為光譜特征,構建4種常用無紅邊植被指數以及7種紅邊指數;除上述3種特征變量之外,鄭淑丹等[22]認為紋理信息也可以提高分類精度,故采用灰度共生矩陣方法提取影像的紋理特征。為較好地反映影像的紋理特征,通過多次試驗對比分析,設置滑動窗口大小為3,步長為1,利用灰度共生矩陣提取了基于紅邊波段的均值(mean)、方差(variance)、同質性(homogeneity)、對比度(contrast)、差異性(dissimilarity)、熵(entropy)、二階矩(second moment)、相關性(correlation)共 8個紋理特征。
將上述特征變量構建7種不同組合試驗方案,如表2所示,采用隨機森林算法和SVM算法對比篩選出適合農耕區土地利用分類的最佳組合信息。
隨機森林(random forest,RF)算法由Breiman等[23-24]人于2001年提出,以決策樹為基本單元,通過集成學習的思想將多棵決策樹集成在一起,本質上是基于機器學習的一種集成學習算法。由于每個決策樹都是一個分類器,當我們輸入訓練樣本后,每棵決策樹都會產生對應的分類結果,隨后隨機森林算法收集每棵樹的分類結果,采用投票方式決定樣本的分類結果。在抽取訓練樣本的過程中,約1/3的數據沒有被抽中,這部分數據成為袋外數據,通常用于評估類別錯分誤差和特征重要性。其中特征重要性采用平均精度減少(mean decrease in accuracy,MDA)進行評估,本研究采用python編程實現MDA得分。
隨機森林算法的分類器需要定義2個參數生成預測模型:期望分類樹的數量(ntree)和節點用來分裂時抽取的特征個數(mtry)。根據本研究試驗方案,通過En MAP-BOX工具進行大量試驗發現,ntree設置為300誤差逐漸收斂并趨于穩定;mtry則設置為總特征的的平方根。
所有特征參與分類必然導致信息冗余,可能會造成“維數災難”,從而導致分類性能下降,因此非常有必要對不同特征變量進行特征選擇。對于光譜特征而言,遙感影像的光譜數量越多會造成數據的冗余性增大,從而影響土地利用分類信息獲取的精度。本研究采用最佳指數因子法(optimum index factor,OIF)[25]選出適合農耕區土地利用分類的波段,其中OIF值越大,表明波段組合而成的圖像信息量越大,其數學表達式如下所示

表1 特征說明

表2 試驗方案信息

對于植被指數和紋理特征,則采用主成分分析進行篩選。主成分分析[26]是將特征變量重新組合成一個新的空間,使數據變得更加獨立。因此,通過主成分分析分別篩選出相關性較弱的植被指數和紋理特征,從而降低特征變量之間的冗余性。
1)光譜特征的確定
根據式(1)計算紅邊信息和近紅外信息波段組合的最佳指數因子,并對其進行排序,如表3所示,其中RE1和Narrow NIR組合的OIF 數值最大,RE1波段更有利于信息提取,因此本研究最終選擇的光譜特征變量為Red、Green、Blue、RE1、Narrow NIR。

表3 波段組合的最佳指數值
2)植被指數的確定
對構建的11種植被指數進行主成分分析,相關系數矩陣如表4所示。無紅邊波段的植被指數,從表中可以看出NDVI與SAVI的相關系數為1,二者相關性較強,考慮到NDVI指數是研究植被類型采用最廣泛的指數之一,因此無紅邊指數最終篩選出RVI、NDVI、MSAVI;而對于紅邊指數而言,則統計每個指數變量之間的相關系數大于0.9的個數,從統計結果來看,CIre與RRI1相關性最強,而RRI1作為區分植被和非植被的重要植被指數之一,所以保留RRI1。而REDNDVI、MSRre與其他紅邊特征相關性都特別強,因此紅邊指數最終篩選出TVI、RNDVI、RRI1、RRI2。

表4 植被指數的相關系數矩陣
3)紋理特征的確定
紋理特征也采用主成分分析進行特征變量優選,相關系數矩陣如表5所示,紋理特征之間的相關系數都普遍較小,僅Dis與Con的相關性最大,相關系數為0.933,然而Con與其他紋理特征相關性則較弱,最終篩選出最優紋理特征為Mean、Var、H、Con、Ent、SM、Cor。

表5 紋理特征的相關系數矩陣
采用MDA對確定的所有特征變量進行重要性評估并排序,結果如圖2所示:紅邊指數RRI1的MDA得分最高,達到0.141 9,且遠遠高于其他特征變量;無紅邊波段的植被指數RVI的MDA次之,值為0.079 5;紋理特征Mean位居第三,其他6個紋理特征的MDA得分最低;光譜特征RE1、Blue、Red等稍微弱于紋理特征Mean;綜合考慮,特征變量的重要性排序如下:紅邊指數>無紅邊波段的植被指數>光譜特征>紋理特征。
在所選5個光譜特征變量中,紅邊波段重要性排序靠前,正是由于健康植被的反射光譜曲線在紅邊波段存在陡峭的“反射肩”這一顯著特點,使得紅邊波段更有利于植被與其它地物類型的區分[27]。由于影像的選擇時間為2019年5月2日,在此時間段內,研究區內有作物耕地覆蓋面積大,作物生長茂盛,因此RE1波段的MDA重要性得分在所有光譜特征變量中最高,相關研究也證實RRI1對植被的健康狀況較其它紅邊指數更敏感[28];而在無紅邊波段的植被指數中,RVI的重要性得分較高,NDVI、MSAVI的重要性相對較低,考慮到該研究區土地利用類型復雜、植被覆蓋不均勻,而RVI對植被覆蓋度不敏感,更適用于高低不同的植被覆蓋情況[29]。

圖2 所有特征重要性
本研究采用總體精度、Kappa系數、生產者精度和用戶精度作為農耕區土地利用類型分類結果評價指標,對7種試驗方案的分類結果進行對比,分類精度如表6所示。從結果可以看出:方案1的總體精度最低,為83.30%;方案2、方案3和方案4的總體精度有所改善,分別提高1.59%、2.09%和1.32%,Kappa系數則分別提高0.02、0.03和0.02,表明加入植被指數、紋理特征等信息可以有效提升分類精度;方案5將所有特征進行整合進行分類,其總體精度和Kappa系數進一步提高,而采用特征優選的分類方案6精度達到最高,總體精度為88.24%,Kappa系數為0.84,在相同的變量條件下采用SVM方法的總體精度和Kappa系數均低于RF算法。對于單個類別的用戶精度和生產者精度而言,再次證明植被指數和紋理特征信息有利于提高分類精度,其中紋理特征對建筑用地精度影響顯著,紋理特征信息更適用于紋理信息比較明顯的類型。通過對比方案6和方案7可知,基于RF算法的大棚、林地的生產者精度分別提高16.74%和18.5%,而有作物耕地、大棚、林地、水體和未利用地的用戶精度分別提高5.32%、11.57%、6.58%、0.54%和9.03%。盡管不同方法在單個土地利用類型分類精度存在差異,總體來說,本研究提出的特征優選方法可以有效改善農耕區土地利用分類的精度,采用方案6最優分類結果如圖3所示。

表6 分類結果精度統計
注:PA,生產者精度;UA,用戶精度。
Note: PA, producer’s accuracy; UA, user’s accuracy.

圖3 A+B+C+D(RF)分類結果圖
本研究基于Sentinel-2遙感數據構建光譜特征、無紅邊波段的植被指數、紅邊指數以及紋理特征4種基本特征變量并優化選擇,進而對變量組合構建7種試驗方案,并用RF算法對不同方案的土地利用類型分類精度進行分析,最后選出最佳分類方案并采用SVM進行對比驗證分析。研究結果表明:
1)為避免“維數災難”而導致分類性能下降的問題,本研究采用OIF指數和主成分分析進行特征優選的方法是切實有效的,能夠明顯有效改善農耕區土地利用類型分類精度;
2)對生成的4種基本特征變量進行特征重要性排序,表明不同特征的重要性程度如下:紅邊指數>無紅邊波段的植被指數>光譜特征>紋理特征;
3)通過對比7種試驗方案分類結果得出,加入植被指數、紋理特征等信息可以有效提升土地利用類型分類精度,在特征優選的基礎上,開展RF算法分類精度最高,總體精度達到88.24%,Kappa系數為0.84,優于相同特征變量條件下的SVM分類結果。
最后,本研究基于特征優選的隨機森林算法為農耕區土地利用分類精度提高提供了一個新思路。該方法僅在所選研究區開展研究,盡管取得了較好的結果,但由于受到研究區范圍、地面采樣數據、時相、土地利用類型、遙感數據源等的局限,會對分類結果造成一定的影響。未來計劃布設更多研究區域,對方法的普適性開展更深入的分析和探討。
[1]馬玥,姜琦剛,孟治國,等. 基于隨機森林算法的農耕區土地利用分類研究[J]. 農業機械學報,2016,47(1):297-303. Ma Yue, Jiang Qigang, Meng Zhiguo, et al. Classification of land use in farming area based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(1): 297-303. (in Chinese with English abstract)
[2]Wang L J, Zhang G M, Wang Z Y, et al. Bibliometric analysis of remote sensing research trend in crop growth monitoring: A case study in China[J]. Remote Sensing, 2019, 11(7): 809-820.
[3]楊貴軍,李長春,于海洋,等. 農用無人機多傳感器遙感輔助小麥育種信息獲取[J]. 農業工程學報,2015,31(21):184-190. Yang Guijun, Li Changchun, Yu Haiyang, et al. UAV based multi-load remote sensing technologies for wheat breeding information acquirement[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(21): 184-190. (in Chinese with English abstract)
[4]Saini R, Ghosh S K. Exploring capabilities of Sentinel-2 for vegetation mapping using random forest[C]//ISPRS TC III Mid-term Symposium: Developments, Technologies and Applications in Remote Sensing, 2018, 1499-1502.
[5]張磊,宮兆寧,王啟為,等. Sentinel-2影像多特征優選的黃河三角洲濕地信息提取[J]. 遙感學報,2019,23(2):313-326. Zhang Lei, Gong Zhaoning, Wang Qiwei, et al. Wetland mapping of Yellow River Delta wetlands based on multi-feature optimization of Sentinel-2 images[J]. Journal of Remote Sensing, 2019, 23(2): 313-326. (in Chinese with English abstract)
[6]劉佳,王利民,滕飛,等. RapidEye衛星紅邊波段對農作物面積提取精度的影響[J]. 農業工程學報,2016,32(13):140-148. Liu Jia, Wang Limin, Teng Fei, et al. Impact of red-edge waveband of RapidEye satellite on estimation accuracy of crop planting area[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(13): 140-148. (in Chinese with English abstract)
[7]Yeom J M. Effect of red-edge and texture features for object-based paddy rice crop classification using RapidEye multi-spectral satellite image data[J]. International Journal of Remote Sensing, 2014, 35(19): 7046-7068.
[8]Tigges J, Lakes T, Hostert P. Urban vegetation classification: Benefits of multitemporal RapidEye satellite data[J]. Remote Sensing of Environment, 2013, 136(5): 66-75.
[9]Antoine L, Christophe S, Thomas C. Monitoring urban areas with Sentinel-2A data: Application to the update of the copernicus high resolution layer imperviousness degree[J]. Remote Sensing, 2016, 8(7), 606-627.
[10]何云,黃翀,李賀,等. 基于Sentinel-2A影像特征優選的隨機森林土地覆蓋分類[J]. 資源科學,2019,41(5):992-1001. He Yun, Huang Chong, Li He, et al. Land-cover classification of random forest based on Sentinel-2A image feature optimization[J]. Resources Science, 2019, 41(5): 992-1001. (in Chinese with English abstract)
[11]Wang Lijuan, Dong Taifeng, Zhang Guimin, et al. LAI retrieval using PROSAIL model and optimal angle combination of multi-angular data in wheat[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2013, 6(3): 1730-1736.
[12]龔燃. 哨兵-2A光學成像衛星發射升空[J]. 國際太空,2015(8):36-40. Gong Ran. Sentinel-2A satellite launches[J]. Space International, 2015(8): 36-40. (in Chinese with English abstract)
[13]Zarco-Tejada P J, González-Dugo V, Williams L E, et al. A PRI-based water stress index combining structural and chlorophyll effects: Assessment using diurnal narrow-band airborne imagery and the CWSI thermal index[J]. Remote Sensing of Environment, 2013, 138: 38-50.
[14]Shi T Z, Liu H Z, Chen Y Y, et al. Estimation of arsenic in agricultural soils using hyperspectral vegetation indices of rice[J]. Journal of Hazardous Materials, 2016, 308: 243-252.
[15]López-Granados F, Torres-Sánchez J, De Castro A, et al. Object-based early monitoring of a grass weed in a grass crop using high resolution UAV imagery[J]. Agronomy for Sustainable Development, 2016, 36(4): 67-79.
[16]Gitelson A A, Kaufman Y J, Merzlyak M N, et al. Use of a green channel in remote sensing of global vegetation from EOS-MODIS[J]. Remote Sensing of Environment, 1996, 58(3): 289-298
[17]Gilabert M A, González-Piqueras J, Garc??a-Haro F J, et al. A generalized soil-adjusted vegetation index[J]. Remote Sensing of Environment, 2002, 82(2): 303-310.
[18]Haboudane D, Miller J R, Pattey E, et al. Hyperspectral vegetation indices and novel algorithms for predicting green LAI of crop canopies: Modeling and validation in the context of precision agriculture[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2004, 90(3): 337-352.
[19]Sims D A, Gamon J A. Relationships between leaf pigment content and spectral reflectance across a wide range of species, leaf structures and developmental stages[J]. Remote Sensing of Environment, 2002, 81(2): 337-354.
[20]Zhang Huanxue, Li Qiangzi, Liu Jiangui, et al. Image classification using RapidEye data: Integration of spectral and textual features in a random forest classifier[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(12): 5334-5349.
[21]Shoko C, Mutanga O. Examining the strength of the newly-launched Sentinel 2 MSI sensor in detecting and discriminating subtle differences between C3 and C4 grass species[J]. Isprs Journal of Photogrammetry & Remote Sensing, 2017, 129(7): 32-40.
[22]鄭淑丹,鄭江華,石明輝,等. 基于分形和灰度共生矩陣紋理特征的種植型藥用植物遙感分類[J]. 遙感學報,2014,18(4):868-886. Zheng Shudan, Zheng Jianghua, Shi Minghui, et al. Classification of cultivated Chinese medicinal plants based on fractal theory and gray level co-occurrence matrix textures[J]. Journal of Remote Sensing, 2014, 18(4): 868-886. (in Chinese with English abstract)
[23]Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[24]Genuer R. VSURF: Variable selection using random forests[J]. Pattern Recognition Letters, 2016, 31(14): 2225-2236.
[25]Chavez P S, Berlin G L, Sowers L B. Statistical method for selecting Landsat MSS ratios[J]. Journal of Applied Photographic Engineering, 1982, 8(1): 22-30.
[26]陳會廣,夏紅,肖毅,等. 基于灰色關聯和主成分分析的農村建設用地集約利用評價-以江蘇省為例[J]. 長江流域資源與環境,2015,24(8):1331-1336. Cheng Huiguang, Xia Hong, Xiao Yi, et al. Evaluation on the intensive use of rural construction based on cray relative analysis method and principal component analysis[J]. Resources and Environment in the Yangtze Basin, 2015, 24(8): 1331-1336. (in Chinese with English abstract)
[27]張衛春,劉洪斌,武偉. 基于隨機森林和Sentinel-2影像數據的低山丘陵區土地利用分類-以重慶市江津區李市鎮為例[J]. 長江流域資源與環境,2019,28(6):1334-1343. Zhang Weichun, Liu Hongbin, Wu Wei. Classification of land use in low mountain and hilly area based on random forest and Sentinel-2 satellite data: A case study of Lishi town, Jiangjin, Chongqing[J]. Resources and Environment in the Yangtze Basin, 2019, 28(6): 1334-1343. (in Chinese with English abstract)
[28]鄭陽,吳炳方,張淼. Sentinel-2數據的冬小麥地上干生物量估算及評價[J]. 遙感學報,2017,21(2):318-328. Zheng Yang, Wu Bingfang, Zhang Miao. Estimating the above ground biomass of winter wheat using the Sentinel-2 data[J]. Journal of Remote Sensing, 2017, 21(2): 318-328. (in Chinese with English abstract)
[29]弋良朋,尹林克,王雷濤. 基于RDVI的尉犁綠洲植被覆蓋動態變化研究[J]. 干旱區資源與環境,2004,18(6):66-71. Ge Liangpeng, Yin Linke, Wang Leitao. Study on dynamic change of Yuli oasis plant cover based on RDVI[J]. Journal of Arid Land Resources and Environment, 2004, 18(6): 66-71. (in Chinese with English abstract)
Classification of land use in farming areas based on feature optimization random forest algorithm
Wang Lijuan1, Kong Yuru1, Yang Xiaodong2, Xu Yi1, Liang Liang1, Wang Shuguo1
(1.,,,221116,; 2.,100097,)
Classification of land use plays an important role in many aspects such as dynamic monitoring, planning, and management, rational land development and protection. At present, with the gradual acceleration of urbanization in China, the area of construction land is increasing and that of cultivated land is decreasing instead. As a result, it is of great significance to obtain the land use classification information of farming areas accurately and timely for the rational planning of agricultural land resources. In recent years, machine learning algorithms have been widely used in the research of land use classification. Among them, the random forest algorithm (RF) has the characteristics of high classification accuracy, strong ability to deal with multi-dimensional data variables, fast training, and prediction speed. And it is widely used in the research of land use classification. However, the participation of multiple feature variables in the classification will lead to information redundancy, over-fitting of the RF and classification accuracy reduction. Therefore, this study used Sentinel-2 data with high spatial resolution and abundant spectral information and used the RF based on feature optimization to carry out land use classification research in agricultural areas. First, Sentinel-2 data was used to generate four basic feature variables, which were spectral features, vegetation indices without the red-edge band, red-edge indices and texture features. Then, the spectral features were screened by the optimum index factor (OIF), vegetation indices and texture features were both selected by the method of the principal component analysis. After that, the method of mean decrease in accuracy (MDA) was applied to evaluate the importance of the above feature variables, and six feature combination schemes were constructed, which were combined with field survey data for RF classification. Finally, by comparing the accuracy of six different combination schemes, the best combination of feature variables was selected. And the classification results of the RF and support vector machine (SVM) of the best combination were compared to verify the practicability of RF in agricultural land use classification. The results were as follows: (1) To avoid the degradation of classification performance caused by “curse of dimensionality”, this study used OIF and principal component analysis to optimize the features. The results showed that this method was effective and significantly improved the classification accuracy of land use types in agricultural areas; (2) The four basic feature variables were sorted by feature importance, indicating that the importance of different features was as follows: red-edge indices > vegetation indices without red-edge band > spectral features > texture features; (3) The comparison of the classification results of 7 experimental schemes revealed that by adding vegetation indices, texture features, and other information, the classification accuracy of land use could be effectively improved. Besides, based on feature optimization, the RF algorithm had the highest classification accuracy, and the overall accuracy was 88.24%, Kappa coefficient was 0.84, which was better than SVM classification results under the same feature variables. In a word, the RF based on feature optimization which was proposed in this study provided a new method to effectively improve the accuracy of land use classification in farming areas, and technical support and theoretical reference for land resource monitoring and management.
random forest algorithm; land use classification; farming area; feature optimization; Sentinel-2; red-edge index
王李娟,孔鈺如,楊小冬,徐藝,梁亮,王樹果. 基于特征優選隨機森林算法的農耕區土地利用分類[J]. 農業工程學報,2020,36(4):244-250. doi:10.11975/j.issn.1002-6819.2020.04.029 http://www.tcsae.org
Wang Lijuan, Kong Yuru, Yang Xiaodong, Xu Yi, Liang Liang, Wang Shuguo. Classification of land use in farming areas based on feature optimization random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(4): 244-250. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.04.029 http://www.tcsae.org
2019-12-06
2020-02-05
國家自然科學基金項目(41971305,41701380,41401397);江蘇省自然科學基金項目(BK20140237);江蘇高校優勢學科建設工程資助項目聯合資助
王李娟,講師,博士,主要從事農業遙感應用研究。Email:wanglj2013@jsnu.edu.cn
10.11975/j.issn.1002-6819.2020.04.029
S25
A
1002-6819(2020)-04-0244-07