關鍵詞:土壤有機質;高光譜;生成式對抗網絡;反向傳播神經網絡
煙草是我國重要的經濟作物之一,其生長發育及煙葉的質量與土壤條件密切相關[1],當土壤肥力過低時,煙草生長受限,煙葉小而薄;當土壤肥力過高時,煙株生長過旺,煙葉不易落黃,烤后煙可用性較差[2]。土壤有機質(soilorganicmatter,SOM)作為評估土壤肥力的一項重要指標,在作物生長和品質等方面發揮著重要作用[3-4]。傳統測定SOM多以化學分析法為主,由于時效性低,難以滿足現代農業的需求[5-6],因此,準確、快速的SOM含量估測方法,對于田間精準施肥以及煙葉質量提高具有重要指導意義。
高光譜技術憑借較高的光譜分辨率、更廣的波段范圍,已廣泛應用于土壤重金屬[7]、堿解氮[8]、鹽分[9]、水分[10]等含量的估測。特別是近些年來,機器學習算法憑借其可處理非線性問題的優勢,已成為當前最主要的建模方法[11-12]。在SOM含量估測方面,張秀全等[13]采集66份農田表層褐土樣本,構建了SOM的堆疊泛化模型,該模型對于SOM含量的高光譜估測優勢明顯。Jia等[14]采集了85份濕地表層土壤樣本,基于海洋捕食者算法的隨機森林(marine-predators-algorithm-basedrandomforest,MPARF)方法建立估測模型,發現該算法可實現對濕地土壤SOM準確估測。Wan等[15]獲取78份東北黑土樣本,并使用偏最小二乘回歸(partialleastsquaresregression,PLSR)構建了SOM的最優估測模型。
野外采集土壤樣品,易受到人力、地形、氣候等因素的影響,特別是在地形復雜、海拔較高的山區,采集土壤樣品難度較大。因此,在有限樣本的情況下,如何實現土壤理化參數的高精度估測,是目前的研究熱點。何少芳等[16]使用生成式對抗網絡(generativeadversarialnetworks,GAN)生成偽樣本擴充建模集,結合PLSR、交叉驗證嶺回歸(ridgecrossvalidation,RCV)和反向傳播神經網絡(backpropagationneuralnetworks,BPNN)建立SOM估測模型,結果表明隨著偽樣本數量的增加,模型性能顯著提高,模型精度呈現出先升后降的趨勢。
目前大多研究使用的建模樣本數量有限,關于通過擴充樣本集提高模型精度的研究較少。雖已有研究借助GAN生成偽樣本構建模型,但未考慮對偽樣本使用光譜變換、特征提取等方法進行處理。光譜處理方法是否適用于偽樣本,以及處理后能否提高模型的估測精度,也需進一步證實。因此,本研究以較有代表性(山區、地形復雜、海拔較高)的湖北省保康縣和宣恩縣境內的4塊煙田(海拔800~1300m)為采樣點,基于土壤樣本構建GAN的生成模型,并按照建模集30%、70%、100%、150%、200%、250%的比例生成偽樣本擴充樣本集,采用標準正態變換(standardnormalvariable,SNV)、多元散射校正(multiplicativescattercorrection,MSC)組合一階微分(FD)、倒數對數(LR)以及倒數對數一階微分(LRFD)進行預處理,結合皮爾遜相關系數(Pearsoncorrelationcoefficient,PCC)篩選敏感波段,使用PLSR、隨機森林(randomforest,RF)和BPNN3種機器學習方法構建估測模型,研究GAN生成的偽樣本對模型精度的影響,對比選出煙田SOM的最優估測模型,為復雜山區煙田SOM的精準估測提供技術支撐。
1材料與方法
1.1試驗地概況
試驗取樣點位于湖北省襄陽市的保康縣(110°45′~111°31′E,31°21′~32°06′N)和恩施土家族自治州的宣恩縣(109°11′~109°55′E,29°33′~30°12′N)。保康縣位于秦巴山脈邊緣地帶,屬于亞熱帶季風氣候,四季分明,日照充足[17]。宣恩縣位于武陵山和齊躍山之間,屬于中亞熱帶季風濕潤型山地氣候,年均氣溫為13.7℃[18]。
1.2樣本采集與光譜測定
以保康縣的3塊煙田和宣恩縣的1塊煙田作為采樣區,其中保康縣的每塊煙田均勻布設24個采樣點,宣恩縣為22個采樣點,共采集土壤樣本94份。使用五點采樣法均勻采集約0~10cm深的土壤,裝入密封袋并標號,同時使用手持GNSS(南方銀河一號)測定和記錄每個采樣點的位置信息。將采集到的土壤樣本用烘箱烘干(120℃,8h),研磨并經2mm孔徑過篩處理后,將每份土樣分為2份,一份通過重鉻酸鉀氧化容量法[19]測定SOM含量,另一份用于光譜數據采集。
采用ASDFieldSpec4地物光譜儀(美國)測定光譜反射率,波譜范圍為350~2500nm,采樣間隔為1nm,重采樣間隔為10nm。采樣在暗室內進行,土壤樣本被盛放在直徑10cm、深2cm的不透光黑色容器中,使用50W的鹵素燈作為光源,光源距離土壤樣本30cm,光源入射角為30°,光纖探頭垂直于待測樣本上方15cm處。為消除測量誤差,每份土樣測量時旋轉360°,每旋轉90°采集4條光譜曲線,共采集16條光譜曲線。取平均后得到每個樣本的實際光譜反射率數據,剔除噪聲較大的350~399nm和2401~2500nm的邊緣波段。
1.3數據預處理與特征提取
1.3.1樣本劃分與光譜預處理 采用Kennard-Stone算法劃分數據集,70%(65個樣本)的樣本作為建模集,剩余30%(29個樣本)的樣本作為測試集。使用Savizkg-Golag平滑窗口,大小設置為17,多項式階數設置為2,對數據進行去噪處理。對處理后的光譜反射率使用SNV和MSC兩種光譜增強方法,組合FD、LR以及LRFD3種數學變換進行光譜預處理。
1.3.2特征提取 對預處理后的反射率使用PCC計算其與SOM的相關性,篩選通過0.05顯著性檢驗的波段作為顯著性波段,使用全波段與顯著性波段兩種反射率數據作為建模集。
1.4模型的建立與評估
1.4.1生成式對抗網絡構建 GAN主要由生成器和判別器組成[20],生成器(圖1a)的輸入是長度為10且符合高斯分布的隨機噪聲,共設置4個全連接層,各層神經元數分別為50、100、150、217,除最后一層外每層各設有一個標準化層,激活函數為GELU,優化器選擇為Adam,學習率設為0.0002。判別器(圖1b)的網絡結構、激活函數、優化器與生成器相同,各層的神經元數分別為217、150、100、50,優化器學習率設為0.0001,損失函數選擇二元分類交叉熵。試驗采用累計訓練的方法設置1000次的預訓練,之后每隔1000次保存模型。
1.4.2估測模型構建 選擇PLSR、RF、BPNN3種機器學習方法構建SOM估測模型。其中,BPNN為3層密集層模型,每層各設有標準化層和丟棄層(每輪丟棄40%的神經元),各層神經元數量分別為50、30、20,除輸出層外每層使用LeakyReLU作為激活函數,超參數α為0.002,初始化策略為He,優化器選擇Adam,學習率設置為0.001,損失函數為均方根誤差,模型最大訓練輪次設為2500,設置提前停止,當訓練超過500輪沒有進展則自動結束訓練。PLSR、RF則使用網格搜索自動尋找最優超參數。
1.4.3模型評估 采用決定系數(coefficientofdetermination,R2)、相對分析誤差(relativepercentdifference,RPD)和均方根誤差(rootmeansquareerror,RMSE)來綜合評估模型預測精度。其中R2越接近1,RPD越大,RMSE越小,說明模型的預測精度越高,建模效果越好,計算公式如下:
其中,為樣本個數,和分別為第個樣本的預測值和實測值,為所有樣本實測值的均值,SD為預測值的標準差。
2結果
2.1SOM含量統計特征
如表1所示,SOM含量的最大值、最小值、平均值分別為44.31、5.74、32.08g/kg,變異系數為31%,屬于中等變異,根據全國第二次土壤普查及有關標準[21],樣本土壤有機質含量屬于2級較高水平。
2.2不同SOM光譜反射率變化曲線
將SOM含量依照四分位數(數值由小到大排列后,取其百分比位置處的實際值)劃分后計算平均值生成4條光譜曲線(圖2)。如圖2所示,隨著SOM含量的增加,光譜反射率總體呈降低趨勢,但17.74~22.30g/kg與22.30~29.21g/kg的平均反射率有部分重疊。SOM含量位于5.74~17.74g/kg時,其400~2400nm波長范圍的平均反射率低于其他3條光譜曲線。
2.3不同訓練階段GAN的生成樣本
為觀察不同訓練階段GAN的樣本生成質量,每間隔5000輪訓練后生成偽樣本,如圖3所示。前15000輪次訓練后生成的偽樣本,反射率曲線受噪聲影響表現相對較差,難以作為訓練樣本添加進建模集中。隨著訓練輪次的增加,生成的樣本曲線逐漸具有真實樣本特征。當訓練輪次達到25000時,在整個波段范圍內,反射率曲線表現平滑,波峰波谷較為明顯。因此,選擇25000輪次訓練后的GAN模型作為偽樣本的生成模型。
使用選擇的GAN模型生成94份偽樣本,依照上述真實樣本方法劃分4條偽光譜曲線(圖4)。通過觀察對比可以發現,GAN所生成的偽樣本,與真實樣本的反射率與SOM含量之間的變化規律基本吻合。
2.4模型估測結果分析
2.4.1原始數據模型估測結果分析 使用全波段以及顯著性波段,建立SOM機器學習估測模型,建模前,原始反射率經MSC+LRFD處理后,與SOM含量的相關性提升明顯,相關系數最高可達到0.66(圖5),對比原始反射率的最大值0.30提升120.00%。
建模過程中,由于LR變換后通過假設檢驗的顯著性波段過少,模型估測結果較差,故不再對估測結果進行展示,其余各模型估測結果如表2所示。使用全波段建模,經過MSC+LRFD預處理后的RF模型精度最高,最高測試集精度R2、RPD和RMSE分別為0.70、1.83和3.85。相較于未經過光譜處理的最優模型,測試集精度提升29.63%。這表明,組合MSC和LRFD進行預處理后,可以有效提升模型的估測精度。
使用顯著性波段建模,經過MSC+LRFD預處理后的BPNN模型測試集精度最高,模型估測結果如圖6所示,其R2、RPD和RMSE分別為0.73、1.91和3.70。對比全波段的最優模型R2提升了4.29%。這表明,通過PCC篩選出顯著性波段進行建模,可以進一步提高模型的估測精度。
2.4.2基于GAN的生成樣本數據模型估測結果分析 使用GAN按照建模集樣本數生成其30%(偽樣本數量為20個)、70%(46個)、100%(65個)、150%(98個)、200%(130個)、250%(163個)比例的偽樣本,用于擴充樣本集并構建模型,不同比例偽樣本反射率以及其相對應有機質含量,都為GAN通過學習真實樣本分布后隨機生成(圖7)。
通過對比添加不同比例偽樣本的模型驗證精度,選取最優的SOM估測模型,其結果如表3所示。(1)當添加偽樣本數量較少時,對模型精度產生的影響較小,隨著偽樣本數量的增加,模型測試集R2呈現出先升后降的趨勢。(2)當偽樣本比例較低時,PLSR具有最佳的測試精度,但隨著偽樣本比例增加,BPNN的精度整體高于PLSR和RF,并且所適用的樣本預處理方法也不具備普適性。試驗結果表明,當借助GAN生成150%的偽樣本參與建模時對測試精度的提升最高。
由表4可知,當添加比例為150%時,經過MSC光譜處理后使用顯著性波段建立的BPNN模型的測試集精度最高,其R2、RPD和RMSE分別為0.80、2.22和3.18。對比未添加偽樣本的最優模型R2(表2)提高了9.59%,模型性能提升顯著。
通過GAN添加150%的偽樣本,并經過MSC光譜處理后使用顯著性波段建立的BPNN模型估測結果如圖8所示。模型建模集和驗證集R2均在0.80及以上,這表明,除了對光譜進行預處理和特征篩選之外,還可以通過添加偽樣本參與建模提升模型的估測精度。
3討論
本研究通過對SOM含量進行區間劃分發現,當SOM含量在17.74~44.31g/kg時,在350~1750nm波段范圍內,光譜反射率與SOM含量呈現負相關,這與胡飛等[22]的研究結果一致。而在5.74~17.74g/kg時,光譜反射率與SOM含量呈現正相關,原因可能是當SOM含量占比較低時,無法作為土壤反射率變化的主導參數,光譜反射率受其他土壤理化參數影響較大[23]。
試驗組合不同的光譜處理,旨在降低光譜反射率中的噪聲干擾,突出光譜特征差異,增強反射率與SOM之間的相關性,結果證明,采用光譜增強或是數學變換,或者將兩者相結合,都可以給模型的估測精度帶來顯著提升,這與Xie等[24]研究結論相同。
研究基于GAN來擴充建模集,結果發現,隨著偽樣本數量的增加,模型精度呈現先升后降的趨勢,原因可能是偽樣本中存在不確定性的噪聲,導致自變量(反射率)對因變量(SOM含量)的解釋能力被稀釋,過度擬合了偽樣本中一些不穩定的細節,從而使模型的精度降低。建模過程中,BPNN的模型精度逐漸優于其他模型,原因可能是樣本數量的增加放大了潛在的特征關系,數據的質量和多樣性直接影響到模型的性能,而BPNN本身就需要大量的數據進行訓練才能獲得更好的泛化能力。因此,隨著建模樣本數量的提升,BPNN開始逐漸發揮其優勢。GAN作為一種深度學習算法,對訓練樣本數量要求較低[25]。Jiang等[26]采集了42份青藏高原退化高寒草甸土壤,通過使用GAN和EMSA(extendedmultiplicativesignalaugmentation)兩種模型生成數據,結合卷積神經網絡(convolutionalneuralnetwork,CNN)構建了SOM估測模型。研究得出,GAN可以生成與真實數據非常相似的數據,并且具有更好的多樣性,對模型性能的提升也高于EMSA。隨著偽樣本的增加,模型性能先升后降,這與本研究結論一致。同時,也進一步驗證了借助GAN模型來提升SOM估測精度的可行性。
本研究為山區煙田SOM含量的精準估測提供一種新思路,但仍存在一些不足。首先,對比整數階微分,分數階微分能夠挖掘數據的細節,更充分地利用高光譜信息[27-28];因此,對光譜處理技術帶來的提升仍需要進一步驗證。其次,本研究雖采用PCC篩選出敏感特征波段,但仍未解決變量之間可能存在的共線性問題。最后,近年來GAN在生成領域取得了顯著的成果,許多研究提出了改進的算法和技術,對于結合新技術來提高光譜樣本的生成質量,還需要進一步研究。
4結論
本研究使用高光譜遙感結合機器學習算法,對湖北煙田的SOM含量進行了估測。結果表明:
(1)反射率經過SNV組合LRFD處理后相關系數絕對值最高為0.66,對比原始反射率最大提升120.00%,隨后經過PCC篩選出顯著性波段后,BPNN模型的預測精度最高,R2、RPD和RMSE分別為0.73、1.91和3.70,對比全波段的最優模型R2提升了4.29%。
(2)經過25000輪訓練后的GAN能生成具有真實樣本特征的偽樣本,其反射率與SOM含量之間也具備真實樣本的變化規律,可以實現對樣本集的擴充,并參與到后續建模中提升模型精度。
(3)通過GAN生成原始建模集樣本數量150%(98個)的偽樣本來擴充樣本集,并結合MSC和PCC篩選敏感波段后,BPNN模型的預測精度最高,R2、RPD和RMSE分別為0.80、2.22和3.18,對比原始樣本的最優模型R2提升了9.59%。因此,基于GAN的BPNN模型是煙田土壤有機質含量的最優估測模型。