南寧師范大學計算機與信息工程學院 曾遠鵬 鐘雅婷
葉片等效水厚度(EWT)對植物水分狀態評價具有重要意義,因此如何快速、準確、無損地檢測葉片等效水厚度也具有重要的意義。高光譜數據可為檢測植物中的葉片等效水厚度提供重要的手段。現有的研究主要集中使用各種機器學習方法來對葉片等效水厚度進行反演,這些方法往往需要對原始光譜進行光譜變換、特征選擇、降維等一系列操作。本文采用神經網絡的方法來建立葉片等效水厚度的反演模型。實驗結果表明:在LOPEX93數據集中,使用神經網絡的方法R2值與RMSE值分別達到了0.945與0.0012優于機器學習方法。
高光譜遙感又稱成像光譜遙感,是將成像技術和光譜技術相結合的多維信息獲取技術。高光譜遙感數據中包含了豐富的空間、輻射和光譜三重信息,具有重要的綜合應用價值。近年來,隨著成像光譜技術在航空遙感領域的快速發展,這項技術成為各個領域的重要監測方法,涵蓋大氣圈、海洋研究、植被生態、礦產地質、水體研究、軍事偵察和考古研究等領域,其應用正在步入成熟期。特別的是,高光譜遙感[1]對植被的變化非常敏感,并能相當準確地反映這些變化,這為在大范圍內估計植被的生理和生化參數提供了可能。基于植被反射高光譜的細微光譜差異分析在植被遙感研究領域顯示出強大的優勢,并已被廣泛應用于農業生產監測中。雖然高光譜數據具有豐富的信息,但它有多個波段,且這些波段之間存在較高的相關性,這導致光譜信息冗余增加,導致反演結果失真,精度降低。因此,如何降低高光譜數據的維度,同時最大限度地保留光譜信息,已成為利用高光譜數據反演植被生理和生化參數的一個重要問題[2]。
目前主流的反演模型都是基于機器學習的,如決策樹[3]、線性回歸[4]、KNN[5]等。雖然它們在反演植被生理和生化參數方面取得了一定的成功,但是往往還需要進行光譜變換、去噪、降維等一系列預處理操作。數據的質量將對機器學習算法模型的質量好壞產生很大的影響。為了達到最好的性能,傳統的機器學習算法流程中,很大一部分工作就是在對數據進行分析和處理。
深度學習是近年來一種先進的面向數據的分析方法,它可以被描述為一個表示由多層人工神經網絡組成的非線性處理的模型,并使用了多個神經元。近年來,由于神經網絡其強大的特征抽象能力,許多基于神經網絡的方法在許多應用中取得了巨大的進展,如計算機視覺和人工智能。基于神經網絡的方法可以允許多層次化、有效地學習目標數據的復雜、微妙、非線性和抽象表示[6]。因此,我們將神經網絡應用到反演應用中,它可以自動的選擇特征并得到好的輸出表示以克服一系列預處理問題。雖然現有的研究大多集中在分類領域,但近年來神經網絡模型在回歸問題中的應用有所增加。
本節主要介紹本文所使用的的數據集以及對其可視化分析。除此之外,我們還描述了本文所建立的神經網絡結構。
葉片光學特性體驗93(LOPEX93)數據庫是由歐洲委員會聯合研究中心(JRC)于1993年建立的[7]。該數據集提供了各種植物的生化成分,其中包括木質素、葉綠素和葉酸、纖維素和淀粉等含量。我們使用其中45種不同的植物,共331個樣本的反射光譜進行反演。其中,訓練集與測試集我們劃分為8:2。
為了更好地對數據進行可視化,我們對反射光譜中的所有樣本的每個波段求平均值,然后進行數據的可視化最終得到如圖1所示的光譜曲線。
其中,橫坐標為光譜的波長,縱坐標為對光譜的反射率。由圖1可以看出,當波長400~500nm波段之間的光譜曲線所包含的有用信息較少時,對植被光譜學的研究意義不大。同時,為了便于后續的數據處理,本研究刪除了這部分的光譜數據,并對剩余的光譜數據進行了處理和分析。

圖1 平均光譜曲線Fig.1 Average spectral curve
神經網絡模型通常由一個輸入層、一個輸出層和多個放置在它們之間的隱藏層組成,每一層都包含多個神經元。具體來說,我們的網絡具有以下架構:一個輸入層和三個隱藏層,分別包含2000、256、256和128個神經元,以及一個輸出層,節點完全連接。使用Relu激活函數作為神經元的激活函數。所選擇的損失函數和優化函數分別為MSELoss和Adam優化器,網絡被訓練為1000個Epoch。此外,Dropout[8]是一種正則化技術,在每個訓練步驟中隨機、暫時地去除固定比例的不同神經元及其各自的連接,也被用來避免訓練數據上復雜的協同適應,從而減少過擬合。我們構建神經網絡使用的環境為Windows系統下的Python+Pytorch,內存32G,顯卡為2080TI。
本節主要介紹我們進行對比實驗的3種機器學習方法設置以及它們之間的性能對比,并作出了總結。
本文以決定系數R2和均方根誤差RMSE作為指標,評價各模型的預測能力。計算公式如式(1)、式(2)所示:
其中,n為樣本數,yi和yj分別表示實測值和預測值。y-i和y-j分別表示實測值和預測值的平均值。其中,R2該值越高表示該模型的預測能力越強。RMSE數值越小,表示模型的實測值與預測值之間的偏差越小。
我們實驗比較的方法有線性回歸、決策樹以及隨機森林[9]3個經典的機器學習模型,它們常被用于各種反演任務當中。為了防止訓練出來的模型過擬合[10],我們在使用這3個模型時預先做了降維處理。我們使用PCA[10]算法對原始光譜數據進行降維。PCA是一種常用的數據分析方法,它通過線性變換將原始數據變換為一組各維度線性無關的表示,可用于提取數據的主要特征分量,常用于高維數據的降維。其中我們選取的主成分數為5,每個主成分都是原始變量的線性組合,彼此相互獨立,這些主成分保留了原始變量中的絕大部分信息。這樣將2000維的原始數據維度降至為5。各主成分的累計方差貢獻率(Cumulative Variance Contribution Rate)如圖2所示,橫坐標代表著主成分,縱坐標代表著方差貢獻率。

圖2 PCA方差貢獻率圖Fig.2 PCA variance contribution rate
我們使用LOPEX93數據集進行了對比實驗,結果如表1所示。其中線性回歸、決策樹、隨機森林的R2值分別為0.897、0.829、0.881,低于神經網絡的0.945,而RMSE值分別為0.0023、0.0029、0.0024,高于神經網絡的0.0012。由此我們可以得知,使用神經網絡進行葉片等效水厚度反演與機器學習模型相比,具有較好的性能表現。

表1 對比實驗Tab.1 Comparison experiment
地面高光譜數據提供了數千個波段的詳細植被反射率信息,這導致了在進行回歸擬合出現維度災難的問題。如何在保存有效的光譜信息的同時,提高預測模型的準確性是一個具有挑戰性的問題。為了解決這個問題,本文使用神經網絡進行葉片等效水厚度高光譜反演實驗。與傳統的機器學習的方法相比,神經網絡不單可以省略降維步驟,還擁有優越的性能。在樣本數量足夠的情況下,使用神經網絡進行植物生化參數的反演能實現很小的誤差,對植物的動態管理具有重要的意義。
雖然本研究證實了神經網絡技術的可行性,但不幸的是,由于神經網絡的“黑箱”性質以及參與訓練的網絡模型有大量的層和神經元,預測模型的固有生物學機制難以理解。為了驗證該模型在不同環境條件下預測葉片等效水厚度的有效性,本實驗還需應用于更多的研究領域。
引用
[1]樊麗,黃云,張敏,等.高光譜遙感技術在果樹研究中的應用[J].中國果樹,2022(10):67-71.
[2]蘇紅軍.高光譜遙感影像降維:進展、挑戰與展望[J].遙感學報,2022,26(8):1504-1529.
[3]李怡靜,孫曉敏,郭玉銀,等.基于梯度提升決策樹算法的鄱陽湖水環境參數遙感反演[J].航天返回與遙感,2020,41(6):90-102.
[4]王宏博,趙梓淇,林毅,等.基于線性回歸算法的春玉米葉面積指數的冠層高光譜反演研究[J].光譜學與光譜分析,2017,37(5):1489-1496.
[5]蔣馥根.植被葉面積指數kNN優化方法反演研究[D].長沙:中南林業科技大學,2020.
[6]王澤坤.基于深度學習的數據處理與密度反演方法研究[D].長春:吉林大學,2022.
[7]CHEN M,WENG F Z.Kramers-Kronig Analysis of Leaf Refractive Index with the PROSPECT Leaf Optical Property Model[J].Journal of Geophysical Research:Atmospheres,2012,117(D 18):D18106-1- D18106-9.
[8]韋卓,李穩穩,林敏,等.基于Dropout深度信念網絡的棉和滌綸含量的近紅外光譜檢測[J].光學學報,2021,41(17):197-203.
[9]楊麗萍,蘇志強,侯成磊,等.基于隨機森林的干旱區全極化SAR土壤含水量反演[J].吉林大學學報(地球科學版),2022,52(4):1255-1264.
[10]李昌元,劉國棟,譚博.基于PCA和KPCA的高光譜遙感數據降維對比研究[J].地理空間信息,2022,20(7):89-93+103.