文 銅, 柳小妮*, 紀 童, 楊冬陽, 喬歡歡, 姜佳昌, 潘冬榮
(1. 甘肅農業大學草業學院, 甘肅 蘭州 730070; 2. 甘肅省草原技術推廣總站, 甘肅 蘭州 730000)
三江源區位于青藏高原腹地,是我國重要的天然草場,素有“中華水塔”之稱,具有重要的經濟價值和生態功能[1]。自三江源自然保護區的建立以來,越來越多的科研工作者對該地區進行著生態健康檢測與保護工作。隨著實踐工作的開展以及研究問題的深入,傳統的植物分類手段不能完全滿足當前研究的需要[2],因此研究快速分類識別草地植物方法具有重要的意義[3]。
遙感技術的出現很大程度上彌補了傳統植物多樣性調查方法的不足[4]。高光譜遙感數據包含豐富的光譜信息并且能夠對植被進行大面積檢測,具有分析簡便快速、靈敏度高、大尺度、非破壞性等優勢[8-10],在植物分類方面具有很大潛力[6-7]。但高光譜數據存在冗余現象[9],因此直接利用原始高光譜全波段數據進行植物分類,難以達到理想的分類效果[11-12]。而植被指數一直是研究植物檢測與分類最簡單、最常用的手段[15-16],該手段一般選擇對綠色健康植物強吸收的可見光波段和高反射的近紅外波段,隨著植物葉冠結構和生化組分等變化,這兩個范圍波段作為植物類型的敏感波段會對植物物理現象的光譜響應產生反差[13],因此可以增強隱含的植物光譜信息減少光譜數據的冗余[11]。
在探索遙感數據的物種識別方法中,越來越多的研究結合高光譜遙感和機器學習算法進行植物分類,有效提高了識別與分類的精度,分類精度總體較高[17]。其中Rollet等[18]基于徑向基函數(Radial basis function,RBF)神經網絡并結合K鄰近算法(K-nearest neighbors method,KNN)的圖像分類算法,對加拿大薩斯喀徹溫省的4種植物光譜數據進行了分類識別,比傳統圖像分類方法有更高的分類精度;李嬋等[19]提取了農業區域8種植物的63種光譜特征變量,利用K鄰近算法、支持向量機(Support vector machines,SVM)分類模型和隨機森林(Random forest,RF)分類模型3種機器學習方法進行植物的分類識別,發現SVM分類準確度要優于KNN與RF;而劉鵬[7]在城市綠化檢測和大田及經濟作物檢測中,利用提取的特征波段,基于KNN和RF開展植物分類識別模型的研究,其研究結果表明,RF算法比KNN算法準確度高。由此說明,SVM,RF,KNN這3種分類識別模型由于對分類問題的適用性較高以及可操作性較易,被廣泛應用于遙感分類中[3]。同時不同的研究對象、研究地點植物的分類識別效果不同,因此選擇合適的分類模型可以提高結果的精度。
本研究利用ASD(ASD FieldSpec?4 Hi-Res NG,USA)地物光譜儀采集野外光譜數據,對三江源地區的36種常見的高寒草地植物進行光譜特征分析,并篩選利用常用的高光譜植被指數,來建立植物的SVM,RF,KNN的分類識別模型,根據分類結果挑選研究區最適分類模型,為高寒草地高光譜植物分類技術提供理論基礎。
以三江源地區高寒草地36種常見植物(表1)為研究對象,植物名錄引用自中國植物志[20]。選用ASD(ASD FieldSpec?4 Hi-Res NG,USA)地物光譜儀手槍式把手配件,于2021年8月中旬盛草期,進行高寒草地植物冠層原始光譜數據采集。
為避免光譜測量時的干擾因素,測試期間光源充足,無云、無大風條件最好。每日工作時間限制在10:00至14:00,雨天或云層較厚時不進行測試。冠層光譜測量時,保持儀器探頭向下垂直視場角為25°,并保證視場角寬度為目標植物和前視場角鏡頭之間直徑距離的一半,對每個目標植物進行10次光譜采集確保數據的充分。

表1 植物名錄Table 1 Plant list
研究表明[21-23],在400~790 nm可見光波段范圍,不同植被的綠度對光譜特征影響極大,在760 nm附近反射率急劇上升,形成植物特有的紅邊現象,光譜區別明顯,因此選取480~760 nm范圍內對植物自身綠度特征敏感的光譜指數GI,CI,RGI,MCARI,TCARI,CIred edge和CRI;此外,光譜測定過程中易受外界環境,如大氣溶膠、土壤背景、植被冠層等因素干擾,導致結果出現誤差,而EVI,RVI,VARI以及SAVI可以有效矯正大氣溶膠影響,消除部分輻射誤差;NDVI670,NDVI750,mNDVI705和MSR705對植被的冠層結構非常敏感,PSRI可用于植被健康的監測與檢測。基于此,共選取出了16種與植物生長狀態和特征的植被指數(表2),探究它們對本研究36種植物的分類潛力。

表2 植被指數Table 2 Vegetation index
支持向量機[24](SVM)主要是通過找到最大間隔的劃分超平面,使得不同類別之間的間隔最大化,在處理小樣本、非線性及高維數據等問題中具有一定的優勢。其中gamma主要是對低維的樣本進行高度映射,gamma值越大映射的維度越高,訓練的結果越好,但是越容易引起過擬合;cost值是懲罰系數,表征的是模型對誤差的容忍度,值越大表示模型對誤差越寬容。
隨機森林算法[25](RF)是以K個決策樹為基本分類器,進行集成學習后得到的一個組合分類器。當輸入待分類樣本時,隨機森林輸出的分類結果由每個決策樹的分類結果簡單投票決定。其中ntree指定隨機森林所包含的決策樹數目,表示隨機森林的總體規模;mtry指定節點中用于二叉樹的變量個數,一般分類模型為數據集變量個數的二次方根。
K鄰近算法[26](KNN)是通過計算訓練集中的每個樣本與測試集樣本的距離,通過對距離的排序,取距離最近的k個點,這k個樣本中具有最多的那個類別就是測試集樣本的類別。KNN算法中k值的設定影響著模型的分類精確度,k值選擇過大或過小,都會降低分類準確度,同時也會造成噪聲增加,因此k值在選擇時一般遵從低于訓練樣本數的平方根的原則。
運用View Spec Pro數據處理軟件進行初期數據預處理及數據格式轉化,再將數據導入到Microsoft Office Excel 2019 中進行保存。對不同植物的相同波段原始光譜取樣計算,利用SPSS 19.0方差分析采用最小顯著差數法(LSD)和顯著性進行檢驗。
36種植物冠層反射光譜(圖1)比較表明,各個植物光譜反射均符合綠色植物特征,但不同植物相同波段間存在差異。在可見光波段350至550 nm范圍內,植物均出現了第一個明顯吸收峰,光譜反射率最小的是鵝觀草,最大是火絨草。藍紫光350至450 nm波段,相比其他綠色植物,川青黃芪、密花翠雀與甘肅馬先蒿出現了小的反射峰,其中川青黃芪反射率最大且在440 nm處達到最高值;綠色波段450至560 nm范圍,除川青黃芪差異性較大(P<0.05)且在560 nm出現“綠谷”現象,其余植物均出現不同程度的“綠峰”現象,此時火絨草反射率最大,高山韭反射率最小。

圖1 不同植物的原始光譜反射率Fig.1 Original spectral reflectance of different plants
在680 nm附近,反射率迅速上升,形成了植物特有的“紅邊”現象,除乳白香青、火絨草和密花翠雀紅邊斜率較低外,其余植物均無明顯差異,但甘肅馬先蒿在紅光波段末端出現了小的吸收峰。
在760 nm至1 100 nm近紅外波段,36種高寒草地植物的反射率在1 070 nm處達到最大值,且該波段內不同植物有差異,其中反射率最大為火絨草,最小為短穗兔耳草。在1 450 nm水分敏感波段,火絨草的反射率最大為0.399 8,短穗兔耳草的反射率最小為0.116 0。
2.2.1支持向量機SVM 表3為SVM的gamma與cost不同參數設置錯誤率。
根據表3可以看出,當gamma取1e-01、cost取10時誤差最小,因此作為SVM分類的模型參數。此時,SVM的準確度為0.93,kappa系數為0.93(表4),從而說明SVM模型較好,能夠較好的區分36種植物。

表3 “Gamma”與“cost”設置Table 3 “Gamma” and “cost” parameter settings

表4 SVM分類模型參數表Table 4 SVM classification model parameter table
由SVM模型混淆矩陣氣泡圖(圖2)可知,SVM分類方法識別36種植物時,在SVM預測集混淆矩陣中,除無法區分雪白委陵菜與羽葉點地梅(誤差率為100%)外,其余植物均被很好的區分,未出現誤差。

圖2 SVM模型混淆矩陣氣泡圖Fig.2 SVM model obfuscation matrix diagram注:圖中對角線以外的氣泡代表誤判,氣泡大小代表判斷數量,樣本數量越大氣泡越大Note:In the figure,Bubbles outside the diagonal line represent misjudgments,and bubble size represents the number of judgments. The larger the sample size,the larger the bubbles
2.2.2隨機森林算法RF 由RF不同決策樹數量植物分類誤差圖(圖3)可知當ntree=50 時模型內草種誤差基本穩定,即ntree取值50。

圖3 隨機森林n_tree誤差圖Fig.3 Random forest n_tree error graph注:圖形橫坐標為決策樹選擇數量,縱坐標為不同植物分類的誤差值Note:The abscissa of the graph is the selection number of the decision tree,and the ordinate is the error value of the classification of different grass species
圖4表明,RF分類模型準確度為99.4%,袋外誤差為2.86%,說明用RF模型來識別這36種植物效果較好。在預測集中單子麻黃、短穗兔耳草誤差較大(誤差率均為20%),高山風毛菊較小(誤差率為5%),其余33植物誤差率均為0。
由圖5A可知,RGI為RF識別模型平均下降準確度(Mean decrease accuracy)最大變量,由圖5B可知SAVI為平均下降基尼系數(Mean decrease gini)中數值最小的變量。
由表5可知,當K=2時KNN模型準確度達到高值(88.0%),kappa系數為0.87。且可知此時是設置K值中的拐點,隨著K值的增加模型準確度不再上升,因此設K=2作為KNN分類模型的參數。

圖4 隨機森林模型混淆矩陣圖Fig.4 Random forest model obfuscation matrix diagram

圖5 隨機森林分類模型變量重要性圖Fig.5 Random forest classification model variable importance map注:A為精確度系數圖,圖中變量值越大說明變量的重要性越強,B為基尼系數圖,圖中系數越低,分類切割越好Note:A is the accuracy coefficient map, the larger the value of the variable in the figure,the stronger the importance of the variable. B is the Gini coefficient map. The higher the coefficient in the figure,the better the classification and cutting

表5 K值設置Table 5 K parameter settings
圖6可知KNN分類結果中,披針葉黃華誤判為高山風毛菊(40%)、多刺綠絨蒿誤判為阿爾泰葶藶(66.7%)、火絨草誤判為高山風毛菊(100%),其余植物分類未出現誤差。
本研究表明,36種植物的原始光譜均符合綠色植物特征,但不同植物在相同波段間具有差異性。如在藍紫波段,由于密花翠雀、川青黃芪與甘肅馬先蒿在光譜采集時均已開花,花色分別為淡紫色、淡灰藍色和紫紅色,因此它們的藍紫光反射率較高;在綠光波段,火絨草與乳白香青出現反射峰主要原因是葉片上的白色絨毛產生了漫反射;在紅光波段的末端,只有花呈暗紫紅色的甘肅馬先蒿反射率出現小幅降低。由此可見,植物的形態特征不同,光譜差異主要集中在可見光波段。

圖6 KNN混淆矩陣氣泡圖Fig.6 K-nearest neighbor model obfuscation matrix diagram
分類模型結果表明,雖然3種模型分類精度較高,依次為RF(99.4%)>SVM(93.2%)>KNN(88.0%),模型的精確度都大于85%,均可適用于該研究區域[3],但都出現了特殊的誤判情況。如雪白委陵菜與羽葉點地梅由于葉片形狀相似且葉柄均有白色絨毛,16種植被指數數值相近,導致SVM模型無法區別;而單子麻黃與短穗兔耳草的植被指數除NDVI670外均相同,RF對該2種植物的識別效果較差。由此可知,SVM與RF分類模型算法對特征相似度較高的植物分類效果較差。另外,KNN誤判火絨草為高山風毛菊,這就暴露了KNN本身的算法缺點,即樣本數量不平衡時,會將樣本數較少的植物(火絨草樣本數僅為5)優先識別為樣本數較多的植物(高山風毛菊樣本數為15)。因此,在利用KNN模型時可控制樣本數量的平衡避免該問題的出現。
雖然模型的精度并不能簡單的說明分類算法本身的優劣[25],但對三江源區高寒草地植物而言,RF不僅模型精度高,且額外具有能對所構建模型參數進行重要性分析的功能。RF參數評估結果表明,RGI紅綠比值指數與SAVI土壤調節指數是提高RF分類識別模型精度的重要參數。這是由于植物的不同花色和葉片被白色絨毛等獨特的現象導致不同植物在相同波段間的原始光譜有差異,從而也導致植物間的RGI紅綠比值指數產生顯著差異(P<0.05),如乳白香青、火絨草(葉片被白色絨毛)和密花翠雀(花色獨特);另外,因密花翠雀、乳白香青和火絨草分別為極度退化、重度退化和輕度退化的優勢種[28],而草地退化后植被蓋度減少,土壤裸斑面積增加[29],能反映土壤背景的SAVI土壤調節指數對此較為敏感。
綜上所述,RF相較于SVM和KNN,無論是模型的適用性還是功能性,均為本研究中的最佳植物分類識別模型。