999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PLSR-BP 復合模型的紅壤有機質含量反演研究*

2020-06-23 03:41:10國佳欣趙小敏江葉楓
土壤學報 2020年3期
關鍵詞:模型

國佳欣,趙小敏?,郭 熙,徐 喆,朱 青,江葉楓

(1. 江西農業大學國土資源與環境學院,南昌 330045;2. 江西省鄱陽湖流域農業資源與生態重點實驗室,南昌 330045)

土壤有機質是指土壤中以任何形式存在的含碳有機化合物,它是土壤的重要組成部分。傳統的測量土壤有機質的方法主要是化學分析方法,盡管測定結果可靠,但存在著費時費力的問題,難以滿足快速監測土壤有機質含量的需求[1]。近些年,土壤高光譜技術的出現為土壤有機質含量的快速預測提供了手段,以其極高的光譜分辨率來獲取反映土壤特性的信息,可節省大量的人力物力,也為精準農業提供了重要的監測手段[2-4]。

光譜預處理在可見光/近紅外光譜分析中具有重要的作用,傳統的土壤高光譜的研究主要是采用原始光譜反射率及其1 和2 階導數、倒數和對數等方式對光譜數據進行數學變換來構建土壤有機質預測模型。然而僅采用傳統的1、2 階導數來對土壤光譜數據處理時,兩者相差過大,會導致中間過渡信息的遺漏[5]。徐繼剛等[5]研究汽油近紅外光譜時得出分數階導數的最優結果并不都在整數階導數處,而是在0 和1 階導數之間或1 和2 階導數之間。隨著導數階數的增加會提高光譜分辨率,同時降低光譜信號的強度[6]。Tong 等[6]采用分數階Savitzky-Golay導數法(fractional order Savitzky-Golay derivation,FOSGD)對近紅外光譜模型進行優化,從而提供更好的方法來平衡分辨率和信號強度之間的矛盾。王敬哲等[7]在對荒漠土壤有機碳進行預測時,得出經過分數階導數預處理后的模型精度較整數階導數有較大提升,其研究結果表明采用分數階導數對土壤光譜數據進行潛在信息挖掘是可取的。以上研究充分說明了對于土壤光譜數據進行導數變換時,不應拘泥于傳統的整數階導數,也要考慮分數階導數變換在數據預處理上的作用。

國內外眾多研究表明,運用可見光-近紅外波段進行線性的偏最小二乘回歸(partial least-squares regression,PLSR)和非線性的 BP 神經網絡等單一模型建模的研究較多[8-9]。洪永勝等[10]和Conforti等[11]通過偏最小二乘回歸單一方法構建了土壤有機質含量的預測模型。丁國香[12]通過 BP 神經網絡方法研究了土壤中的有機質與可見光/近紅外光譜之間的關系,并建立相應的預測模型。然而線性模型僅適用于變量較少且具有很大線性關系的情況,非線性模型在輸入變量過多時容易出現“過擬合”現象,因此可以考慮線性模型與非線性模型相結合是否能夠提高有機質含量的預測精度。

本文以奉新縣北部為研究區,基于 PLSR、BP神經網絡和PLSR-BP 復合模型,在對紅壤光譜數據進行0~2 階分數階導數、倒數的對數和對數的導數等數學變換的基礎上,對紅壤有機質含量預測模型的建立進行探索,以明確最優數學變換和模型的選取,以期為南方紅壤地區土壤有機質含量的快速預測提供參考依據。

1 材料與方法

1.1 研究區概況

研究區位于江西省西北部的奉新縣北部,115°08′~115°40′E,28°68′~28°80′N,總面積為 2.0×104hm2。研究區屬中亞熱帶濕潤氣候,年平均氣溫為17.3℃,年均降雨量為1 612 mm,年均相對濕度為79%。如圖1 所示,本文所選研究區域主要包括奉新縣赤岸鎮、會埠鎮、馮川鎮、干洲鎮和羅市鎮的部分村,是以昌德高速(S40)和兩條省道(S308和S226)圍成的閉合區域。從DEM 圖中能夠得出,研究區海拔介于31 m 至133 m 之間,處于平原地帶。低海拔區域主要分布在東南部地區,而較高海拔區域則分布在研究區北部和西部地區。經實地調查及土地利用現狀圖統計得出,研究區內主要包括林地1.1×104hm2,水田 5.0×103hm2,園地 1.0×103hm2,其他用地 3.0×103hm2,分別占研究區總面積的55%、25%、5%和15%。

圖1 研究區位置、DEM 與采樣點分布Fig. 1 Location of the study area and the distribution of DEM and sampling points

1.2 土壤樣本采集

樣本的采集時間為2018 年7 月23 日至8 月11日,采用1 km×1 km 規則格網劃分研究區,在各格網內隨機選取采樣點,綜合考慮地勢、植被覆蓋、土地利用類型及道路可達性,對于個別地理環境較為復雜的區域,進行了采樣點的加密,以保證數據的代表性。在采樣點附近5 m 范圍內不同方向選取四個重復樣點,混合均勻后,用四分法得到最終樣本,剔除其中的植物根系和石塊等,同時使用手持GPS 儀器讀取采樣點的位置信息。采集樣本覆蓋園地、林地、水田三種土地利用類型,其中園地57 個、林地93 個、水田98 個,園地、林地的采樣深度為30 cm,水田為20 cm。樣本于實驗室風干、研磨,過2 mm 篩,并將其均分為兩部分,分別用于土壤光譜和有機質的測定。土壤有機質含量采用重鉻酸鉀容量法測定[13]。

1.3 光譜測量

采用美國 ASD FieldSpec4 地物光譜儀進行土壤光譜反射率的測量。光譜采集范圍為 350~2 500 nm,光譜采樣間隔為1.4 nm(350~1 000 nm)和2 nm(1 001~2 500 nm),重采樣間隔為1 nm,共輸出2 151 個波段。在暗室內進行光譜的采集,以避免外界干擾。將土樣置于直徑6 cm 深2 cm 的黑色盛樣皿中,盛滿并用直尺將表面刮平。使用MugLite 儀器中自帶的內置光源進行測量,將盛樣皿置于儀器頂部槽中,每次采集數據之前對儀器進行暗電流和標準白板校正,每個樣本采集5 條光譜數據,取其算術平均值作為該樣本的光譜曲線。

1.4 光譜預處理

由于環境和儀器自身的影響會對測量光譜的邊緣波段造成較大的噪聲,因此去除350 nm~399 nm及 2 451 nm~2 500 nm 波段。通過 Daubechies6(DB6)小波進行三層分解,采用軟閾值法對高頻系數進行去噪處理,去除測量過程中產生的噪聲影響[14-15]。研究采用10 nm 間隔進行重采樣,得到由205 個波段組成的光譜曲線,以降低數據維數,減小數據冗余。

除上述預處理外,本文還對光譜數據進行下述數學變換,包括光譜反射率(reflectance,R),分數階導數:0.5 階導數(fractional order derivative,FOD(0.5))、1 階導數(FOD(1))、1.5 階導數(FOD(1.5))、2 階導數(FOD(2)),倒數的對數(inverse-log reflectance,ILR)和對數的導數(log-derivative reflectance,LDR)。已有研究表明這些變換在土壤光譜研究中有廣泛的應用,有助于突出光譜特征,為有機質反演提供更高的模型精度[8,16-17]。其中分數階導數變換通過MatlabR2017b 編程實現。

分數階導數(FOD)目前廣泛應用于建模、信號分析等領域[18-19],有三種主要類型的算法,分別是 Riemann-Liouville(R-L),Grünwald-Letnikov(G-L)和Caputo[20],其中G-L 分數階導數是由整數階導數的定義推廣而來。分數階導數有助于光譜信息的增強,在一定程度上減小了噪聲對數據的干擾。本文采用G-L 算法求出分數階導數:

式中,v為階數,Γ(x)為Gamma 函數,n為導數上下限之差[21-23]。

1.5 模型的建立與評價參數

本文分別采用線性模型PLSR 和非線性模型BP神經網絡進行紅壤光譜有機質含量估測,再將PLSR與 BP 神經網絡模型進行復合,用于有機質含量預測模型的構建。

PLSR 是目前較為常用的一種線性多元回歸分析方法,它能夠分析預測矩陣 X(即自變量)與響應矩陣 Y(即因變量)之間的關系,將初始輸入的數據投影到一個潛在的空間中,利用正交結構提取出大量潛變量,找出這些新變量與 Y 之間的線性關系[24]。采用留一法(Leave-one-out)交叉驗證來確定提取出的潛變量個數,建立PLSR模型[8]。

BP 神經網絡是人工神經網絡中一種應用較為廣泛的非線性建模方法,適用于數據預測[9],其網絡結構由輸入層、輸出層和隱含層構成。學習過程由前向傳播和反向傳播兩方面組成,在前向傳播過程中,輸入數據由輸入層經由隱含層向輸出層逐步處理,如果輸出層得到的數據誤差不在允許范圍內,則進行誤差反向傳播,通過梯度下降法逐層調整各神經元的權重,直至誤差符合指定要求[25]。

在利用BP 神經網絡進行建模時,減少輸入變量的數量可以減小數據之間的相關性。因此采用PLSR 與BP 神經網絡相結合的方法,將PLSR 提取出的潛變量作為BP 神經網絡的輸入層數據,這些新變量能反映原變量的絕大部分信息以達到減少數據量降低維度的目的,從而避免“過擬合”現象的發生[25]。

采用決定系數(R2)、均方根誤差(RMSE)、預測偏差比(RPD)作為精度評價指標。R2和RPD越大說明模型越好,RMSE 越小說明預測效果好[26]。當RPD<1.5 時,表明模型無法對樣本進行預測;當1.5<RPD<2 時,表明模型只能對樣本進行粗略預測;當2<RPD<2.5 時,表明模型有較好的預測樣本的能力;當RPD>2.5 時,表明模型有很好的預測樣本的能力。式(2)中n為數量,ym和yp分別為有機質實測值與預測值。式(3)中STDEV 計算的是驗證集樣本實測值的標準偏差。

常規數據統計分析軟件使用軟件ArcGIS 10.5、IBM SPSS Statistics 22.0 、 OriginPro 2016 和Microsoft Excel 2010,PLSR 使用 The Unscrambler X 10.4,BP 神經網絡使用Matlab R2017b。

2 結 果

2.1 紅壤有機質描述性統計特征

獲取的 248 個樣本,其有機質含量范圍為5.27~64.00 g·kg-1。由于異常值的存在會影響建模精度,因此采用拉依達準則[27]對樣本進行檢驗,發現數據無異常值。將 248 個土壤樣本選用 K-S(Kennard-Stone)算法[28]按照樣本間的歐氏距離以3︰1 的比例分為兩組,其中訓練集包含186 個樣本,驗證集包含62 個樣本,用于模型的精度檢驗。全集、訓練集和驗證集的有機質含量均值分別為 33.97、35.04 和 30.78 g·kg-1,變異系數分別為 43.27%、41.07%和49.64%,屬于中等強度變異(圖2)。

圖2 紅壤樣本有機質含量描述性統計Fig. 2 Descriptive statistics of soil organic matter contents in red soil samples

2.2 紅壤光譜特征

圖3 為經預處理后的紅壤光譜曲線,在可見光部分呈陡坎型[15]。從中可以發現在900 nm 左右有較明顯的氧化鐵吸收谷,因此在建模時去除 800~1 000 nm 波段以減小氧化鐵對光譜的影響。而在1 400 nm、1 900 nm、2 200 nm 處有明顯的水分吸收谷[29],考慮到樣品已經經過了風干處理,對于有機質含量建模影響較小,不作處理。

研究將有機質含量按高低劃分為<15、15~25、25~35、35~45、45~55、≥55 g·kg-1六組,每個組別內求取其光譜曲線的平均值。從圖3 中可以看出,隨著有機質含量的增加,在可見光波段內,不同含量的樣本光譜曲線相差不大,而在近紅外波段,可以看出有機質對光譜的影響較為明顯,有機質含量與光譜反射率呈現負相關的現象。500~800 nm部分數據存在交叉現象,可能是由于在可見光部分土壤反射率數值相接近,平均之后相差不大。

圖3 不同有機質含量紅壤光譜曲線Fig. 3 Spectral curves of the red soil samples relative to content of organic matter

2.3 紅壤有機質含量PLSR 建模

運用經過數學變換后的光譜數據(400 ~800 nm、1 000~2 450 nm)中經過P=0.01 顯著性檢驗后的波段分別建模的自變量,土壤有機質含量作為因變量。從表1 可以看出,PLSR 建模時,R、FOD(2)、ILR 和LDR 模型的RPD 均未達到2.0,模型效果一般,只能對樣品有機質含量進行粗略估測;而FOD(0.5)、FOD(1)及FOD(1.5)模型的RPD 分別為2.19、2.23 和 2.34,均在 2.0 以上,說明模型對有機質含量有較好的預測能力。對R進行數學變換后,僅有LDR 的驗證集精度下降,R2雖然升高了0.04,但是RMSE 升高了 0.49 g·kg-1,RPD 下降了 0.09。表中數據充分說明數學變換有效地提高了紅壤有機質含量的預測能力,其中FOD(1.5)模型的訓練集和驗證集的R2最高,分別達到了0.88 和0.83,RMSE 分別為 4.98 g·kg-1和 6.62 g·kg-1,預測能力最為顯著,其RPD 達到了2.31。

2.4 紅壤有機質含量BP 神經網絡建模

BP 神經網絡模型是將訓練集各波段光譜數據作為輸入層數據,土壤有機質含量作為輸出層數據進行構建。從表2 中可以看出,基于光譜反射率數據(R)的BP 神經網絡模型的訓練集和驗證集精度均不高且RPD 僅為0.89,無法對樣本有機質進行預測。FOD(0.5)、FOD(1)、FOD(1.5)、FOD(2)、ILR 和 LDR 模型的訓練集R2均達到了 0.90 以上,RMSE 均小于 5.00 g·kg-1;驗證集R2基本達到 0.80,RMSE 基本在 7.00 g·kg-1以下,RPD 均在 2.10 以上,具有較好的預測有機質含量的能力。其中ILR 模型訓練集R2最高達到了 0.95,RMSE 為 3.14 g·kg-1,但驗證集中 FOD(1)模型R2最高為 0.84,RMSE為 6.55 g·kg-1,RPD 為 2.34。結合表 1 和表 2 可以看出,與 PLSR 相比,BP 神經網絡 R 模型的 RPD下降了0.86,其余變換RPD 均有所提升。

表1 紅壤有機質含量PLSR 模型精度Table 1 Precision of the PLSR model in predicting red soil SOM content

表2 紅壤有機質含量BP 神經網絡模型精度Table 2 Precision of the BP neural net model in predicting red soil SOM content

2.5 PLSR-BP 復合建模

在進行PLSR-BP 復合建模時,將PLSR 建模中提取出的潛變量作為自變量進行土壤有機質預測模型的構建。表3 為PLSR-BP 復合建模結果,與表1、表2 相比較,可以看出PLSR-BP 復合建模的R 模型RPD 較單一的PLSR 和BP 模型而言提升到了1.96,但仍只能對樣本有機質含量進行粗略估測。ILR 模型的RPD 為1.98,較PLSR 建模提升了5.9%,但相比BP 神經網絡降低了 12.5%,只能粗略估計樣本有機質含量。FOD(0.5)、FOD(2)及LDR 模型的RPD分別為2.41、2.27、2.46,均具有較好的估測土壤有機質含量的能力。FOD(1)和 FOD(1.5)模型的RPD 分別為2.63 和2.75,具有很好的預測能力。除R 模型,其余模型訓練集R2均低于BP 神經網絡模型,驗證集R2有所提升。其中FOD(1.5)優于0.5、1、2 階導數模型,相比經過FOD(1.5)變換的BP 神經網絡模型,訓練集R2下降了 3.2%,RMSE 上升了15.0%,驗證集R2上升了7.4%,RMSE 下降了 15.5%,RPD 上升了18.0%。圖4 可以看出FOD(1.5)模型的驗證樣本基本在1︰1 線附近,預測能力為最優。總體而言,PLSR-BP 復合模型驗證集的各項判定指標均優于PLSR 或BP 神經網絡單獨建模。

表3 紅壤有機質含量PLSR-BP 模型精度Table 3 Precision of the PLSR-BP model in predicting red soil SOM content

圖4 1.5 階導數變換的有機質含量PLSR-BP 復合模型實測值與預測值比較Fig. 4 Comparison of measured SOM and the values predicted with the PLSR-BP model based on 1.5 order derivative transformation

3 討 論

紅壤氧化鐵含量較高,主要是由于紅壤在形成過程中的脫硅富鐵鋁化過程所造成的[31]。季耿善和徐彬彬[32]發現游離氧化鐵在紅壤光譜的 900 nm 附近吸收最強,對光譜特性的影響極大。而在對紅壤有機質含量估測模型的構建中,劉磊等[33]通過對紅壤原始光譜進行去包絡線處理,使用其特征吸收帶480~580 nm、820~950 nm、1 010~1 060 nm、1 360~1 500 nm、1 880~2 020 nm、2 160~2 240 nm進行有機質含量建模;謝文等[34]通過研究發現山地紅壤有機質光譜特征波段位于600~2 450 nm 處,并選用全波段進行建模。他們在建立估測模型時均未考慮到氧化鐵對于模型精度的影響。考慮到氧化鐵在900 nm 左右的吸收谷的干擾,在波段選擇上,本研究去除 801~1 000 nm 波段,選用 400~800 nm、1 001~2 450 nm 波段進行建模,以減小氧化鐵對于有機質含量預測的干擾。

在土壤光譜數據建模前,對其進行各種數學變換是非常必要的,有助于構建精度更高的模型[35,36]。常用的數學變換主要有 1 階導數、2 階導數、倒數的對數等,本文在此基礎上引入了目前研究較少的分數階導數這一概念。分數階導數的引入對整數階導數的概念進行了擴展,在階數的選擇上更加廣泛,同時也將隱含在光譜內的信息表現出來。張東[37]利用分數階導數公式將0~2 階的階數間隔細化至0.1,發現在2 階導數時模型的預測精度達到最優。本研究以0.5 為階數間隔對土壤光譜數據進行0~2 階的導數變換,經過導數變換后,發現采用PLSR 模型建模時模型的RPD,即預測能力FOD(1.5)> FOD(1)>FOD(0.5)> FOD(2);BP 神經網絡建模時,各模型的RPD,FOD(1)> FOD(1.5)>FOD(0.5)> FOD(2);基于PLSR-BP 復合模型建模時的RPD,FOD(1.5)>FOD(1)>FOD(0.5)> FOD(2),與 PLSR 模型具有相同的趨勢,即在0~2 的區間上對于有機質的預測能力呈現一個先升高后下降的趨勢,在 1.5 階導數時得到最優預測模型。BP 神經網絡建模時,1階導數變換得到了較好的預測模型可能是由于隱藏層神經元等參數設置不同而導致了該結果。與張東[37]研究結果不一致的原因可能在于土壤含鹽量和有機質二者對土壤光譜的敏感性不同。

土壤光譜的近紅外波段往往含有數據冗余,會增加建模的復雜性[38]。PLSR 模型能夠很好地提取土壤光譜中的信息,同時使其與有機質含量的相關程度達到最大。文中非線性的 BP 神經網絡模型較線性的 PLSR 模型有更好的預測能力,其不足之處在于 BP 神經網絡訓練集雖然有很高的決定系數,但由于輸入變量過多,網絡規模過大,影響收斂速度,造成了“過擬合”的現象,這也導致驗證集與訓練集精度相差較大。因此本文使用PLSR-BP 復合模型進行土壤有機質的預測,采用 PLSR 先對土壤光譜數據進行潛變量的提取,減少數據冗余,再對這些潛變量進行 BP 神經網絡建模,這一方法可以有效避免使用單一的 BP 神經網絡模型進行全波段擬合時出現共線性現象。結果表明,PLSR-BP 復合模型的 RPD 較單一模型高出了 0.12~1.07,說明PLSR-BP 復合模型在對紅壤有機質含量的預測中的實用性。

本文不足之處在于僅構建了一個綜合模型對林地、園地和水田三種土地利用類型的土壤有機質含量進行預測,而并未深入研究對于不同土地利用類型是否能采用同一模型進行土壤有機質含量的預測,這也是今后需要進一步研究的方向。

4 結 論

分數階導數是在傳統的整數階導數上的擴展,減少了有用信息的遺漏,有助于土壤有機質含量的預測。對于使用經過分數階導數變換的紅壤光譜而言,在0~2 階的區間上,對土壤有機質含量的預測能力呈現出先升高后下降的趨勢,并在 1.5 階處能夠得到最優模型。在建模方法的選擇上,偏最小二乘回歸能夠在保證土壤光譜與有機質含量相關性最大的基礎上進行數據的壓縮,減少數據冗余;BP 神經網絡預測精度雖然較高,但由于輸入變量過多易出現過擬合現象;偏最小二乘回歸與 BP 神經網絡結合可以綜合二者的優點,提高模型的預測精度。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产va在线观看免费| 午夜福利视频一区| 国产av一码二码三码无码| 欧美日本在线观看| 伊人无码视屏| 91九色视频网| 国产白浆视频| 波多野结衣在线一区二区| 国产福利一区视频| 久久96热在精品国产高清| 欧美日本在线一区二区三区| 国产精品无码久久久久久| 九色视频线上播放| 亚洲天堂2014| 久久国产av麻豆| 亚洲一区第一页| 亚洲欧洲日韩综合| m男亚洲一区中文字幕| 播五月综合| 国产久草视频| 三级欧美在线| 国产欧美日韩va另类在线播放| 成人午夜精品一级毛片| 婷婷丁香色| 国产欧美精品午夜在线播放| 国产真实乱子伦精品视手机观看| 人人爽人人爽人人片| 极品国产在线| 国产a v无码专区亚洲av| 国产成人三级| 国产在线八区| 99人体免费视频| 国产精品久久久久久久久kt| 亚洲福利视频网址| 欧美午夜小视频| 一本色道久久88| 日韩福利在线视频| 亚洲浓毛av| 国产精品播放| 欧洲亚洲欧美国产日本高清| 亚洲欧美日韩另类在线一| 久久九九热视频| 91九色最新地址| 亚洲二三区| 日韩精品无码免费一区二区三区 | 黄色网站不卡无码| 国产综合网站| 国产精品毛片一区视频播| 99在线视频免费| 国产小视频在线高清播放| 国产成人91精品免费网址在线| 国产黑丝视频在线观看| 国产理论精品| 一级成人a毛片免费播放| 99这里只有精品在线| 三上悠亚在线精品二区| av性天堂网| 99视频精品在线观看| 欧美精品综合视频一区二区| 亚洲国产一成久久精品国产成人综合| 成人免费网站在线观看| 国产精品亚洲日韩AⅤ在线观看| 亚洲人成电影在线播放| 国产三级国产精品国产普男人| 91精品专区国产盗摄| 人妻精品全国免费视频| 91久久精品日日躁夜夜躁欧美| 91久久国产热精品免费| 国产精品妖精视频| 欧美午夜理伦三级在线观看| 91丝袜乱伦| 日本伊人色综合网| 国内精品久久久久久久久久影视| 在线观看免费黄色网址| 高清视频一区| 久久精品无码一区二区国产区| 欧美笫一页| 国产欧美日韩专区发布| 国产91视频免费观看| 国产高清精品在线91| 青草娱乐极品免费视频| 99re在线观看视频|