郭 晗,徐敏賢,徐飛飛,羅 明,陸 洲,*,張 序
(1.蘇州科技大學 環境科學與工程學院,江蘇 蘇州 215009;2.中國科學院 地理科學與資源研究所,北京 100101;3.中億豐建設集團股份有限公司,江蘇 蘇州 215131)
作為衡量土壤生產力的重要指標,土壤肥力的高效監測受到學者的廣泛關注。高光譜技術的快速發展,為土壤組分空間量化帶來新的手段。衛星遙感具有飛行高度高、掃描帶寬大的特點,能夠在短時間內獲取大面積的光譜信息[1],現已在區域土壤肥力監測中得到廣泛運用。Meng等[2]、馬馳[3]、齊雁冰等[4]分別基于不同衛星的高光譜數據,展開區域尺度的土壤組分高光譜估算,均取得了較好的預測效果。然而,當前全世界范圍內的農業生產模式仍以家庭農場為主,生產規模難以達到區域尺度[5];因此,基于大范圍尺度建立的土壤肥力預測模型并不適用于以家庭農場為主的生產單元內的土壤肥力預測。相較于區域尺度上的土壤肥力監測,田間尺度上的土壤肥力監測更適應于當前農業的發展需求。
進入21世紀以來,無人機(UAV)遙感技術迅速發展。相較于衛星遙感,無人機遙感在光譜分辨率、操作靈活性上均有大幅提高,并已逐漸應用于田間尺度上的土壤光譜實時獲取[6]。當前,基于無人機高光譜的土壤肥力估算多圍繞土壤中含量較高的有機質展開。Peón等[7]利用機載高光譜掃描儀(AHS)構建山區植被覆蓋區數據源,建立起可對土壤有機質進行高效監測的多元線性回歸預測模型。秦凱[8]通過重建機載高光譜數據,展開巖石礦物和土壤有機質的信息提取算法研究,建立了高效估算有機質含量的模型。張東輝等[9]利用CASI-1500航空高光譜成像系統,在380~1 050 nm光譜范圍內預測了我國建三江區域的土壤肥力,對有機質含量的估算誤差為5.25%,預測效果理想。王磊[10]采用Cubert UHDl85機載高速成像光譜儀對耕地土壤有機質含量與光譜響應規律進行測定,為利用無人機高光譜估算耕地土壤肥力提供了方法借鑒。盡管針對土壤有機質含量的高光譜估算方法已趨于成熟,但由于土壤有機質組成復雜,且會因內部碳氮比變換,以及外部水熱狀況、通氣狀況、土壤酸堿性的變化而發生礦化、腐殖化反應;因此,不同環境土壤有機質對光譜的響應差異較大[11],有機質估算模型的普適性也較差。相較于有機質,胡敏酸成分單一,理化性質穩定,不易受環境影響,可與光譜建立穩固響應[12]。同時,胡敏酸對土壤結構和土壤中有機碳的變換均具有重要作用[13]。因此,對胡敏酸含量進行高效監測,對于精準農業的發展來說亦具有重要的應用價值。
本文以無人機高光譜系統為數據源,以南方水稻土為研究對象,在田間尺度上開展胡敏酸含量的估算研究。主要研究內容包括:(1)首先,對原始光譜進行去除包絡線(CR)、倒數(IR)、對數(LR)、一階導數(FDR)、二階導數(SDR)、倒數&一階導數(IFDR)、對數&一階導數(LFDR)、倒數&對數(ILR)8種變換,篩選可增強光譜敏感性的最佳單波段變換方法。接著,對原始光譜和經單波段變換后的光譜進行歸一化處理,構建歸一化光譜指數(NDSI),削弱不同波段之間的干擾,增強光譜與土壤胡敏酸含量間的復雜聯系。(2)對歸一化光譜指數與胡敏酸含量進行相關性分析,剔除冗余光譜,定位胡敏酸含量響應歸一化光譜指數的準確位置。(3)建立多元線性回歸(MLR)、偏最小二乘(PLSR)、反向神經網絡(BPNN)、支持向量機(SVM)等估算模型,綜合分析決定系數(R2)、均方根誤差(RMSE)、相對分析誤差(RPD),對模型性能做出評價,從而篩選出最佳光譜變換與建模方法的組合,為實現田間尺度上的胡敏酸含量高光譜監測提供方法借鑒。
研究區位于江蘇省蘇州市震澤鎮(圖1-A),地理坐標在120°30′56.31″~120°31′11.30″E,30°56′48.53″~30°57′2.07″N。該地年降水量在800~1 500 mm,氣候溫暖、濕潤[14],屬亞熱帶濕潤季風氣候區。土壤類型以粉砂質黏壤為主,具有顆粒細小、孔隙度高的特點[15],有利于降水入滲,且底土層的黏壤或粉砂黏壤對入滲降水有攔截作用,保水保肥性好。研究區耕地類型以水田為主,水稻是主要的種植作物[16]。
去除道路、水渠等非農田區域,通過ArcMap 10.6軟件的Create Finshnet工具,繪制邊長40 m的網格,以每個網格中心為采樣點,在整個研究區內均勻布設45個采樣點。
實際采樣時,將45個采樣點的坐標導入佳明ETrex229X型戶外手持GPS導航儀中,通過5點采樣法(以每個點的坐標為中心,做邊長40 m的正方形,以中心點和正方形的4個頂點為采樣點)采集0~15 cm的表層土壤1 kg,充分混合后作為一個土樣,避光保存。
胡敏酸含量測定,采用國際腐殖酸協會推薦的方法,結合Rosa等[17]、李麗等[18]的研究,簡述如下:加入0.05 mol·L-1的NaOH,超聲振蕩30 min提取,將提取液于4 500 r·min-1條件下高速離心10 min,重復提取3次;然后,加入1 mol·L-1的HCl溶液,調節pH值至1~2,收集沉淀;再用0.1 mol·L-1KCl溶解沉淀,去除膠體雜質,收集上清液,向上清液中加入1 mol·L-1的HCl,調節pH值至1~2,再次收集沉淀,稱量,測算土壤胡敏酸含量。
向SPSS 22軟件導入采樣點胡敏酸含量,根據含量分布,將32個樣本劃分為建模集、13個樣本劃分為驗證集(圖1-B)。不同樣本集合在空間分布上較為均勻。

圖1 研究區位置
1.3.1 高光譜數據采集
利用四川雙利合譜科技有限公司自主研發的GaiaSky-Mini2-VN高光譜成像系統獲取研究區的高光譜數據。GaiaSky-Mini2-VN機載成像傳感器的參數如下:光譜范圍396~1 000 nm,光譜分辨率3.5 nm,探測器全幅像素1 920 pixel×1 440 pixel,鏡頭焦距23 mm,圖像最大分辨率1 920 pixel×2 080 pixel,圖像默認分辨率960 pixel×1 040 pixel,Bin方式包括1 440通道、720通道、360通道、176通道,空間分辨率(鏡頭焦距23 mm、飛行高度300 m)可達0.12 m,掃描速度為9 s·通道-1。該系統克服了中小型無人機搭載推掃式高光譜相機工作過程中由于無人機系統振動而引起的成像質量差的問題,可與大疆Mpro 600無人機(深圳市大疆創新科技有限公司)完美結合,完成目標識別、地面物體遙測等功能。
為削弱非必要環境因素對高光譜數據的影響,于2020-01-22獲取高光譜數據。此時,正值水稻休耕期,研究區地表裸露。當天,天氣晴朗,風量小。設置飛行高度300 m,旁向覆蓋率70%,南北方向飛行2個架次,空間分辨率達到0.12 m,光譜分辨率達到3.5 nm。
對于獲得的高光譜數據,先利用GaiaSky-Mini2-VN高光譜成像系統自帶的數據處理工具Spec View對60景影像進行鏡頭校正、反射率校準、大氣校正處理,再利用HiSpectral Stitcher工具實現研究區影像拼接。通過Envi 5.3軟件的ROI Tool工具提取采樣點反射率。
1.3.2 高光譜數據處理
高光譜數據具有精度高、信息量大的特點。為去除冗余信息、增強波段之間的微弱關聯、減弱模型的復雜性[19],首先對176個波段45個采樣點的原始反射率分別進行CR、IR、LR、FDR、SDR、IFDR、LFDR、ILR等8種單波段變換。
在單波段變換的基礎上,為深度挖掘光譜與土壤組分之間的復雜關系,在Matlab2018(a)軟件中對未經變換的原始光譜和經單波段變換后的光譜進行兩兩組合,構建NDSI。計算公式如下。
(1)
式(1)中:VNDSI為NDSI的值;λ1、λ2為任意2個波段(經單波段變換或不經變換)的光譜,λ1≠λ2。
1.4.1 特征光譜提取
特征光譜的準確篩選是建立優質模型的關鍵。高光譜數據經處理后,形成的NDSI數據量很大。為提高建模效率,增加模型可比性,對冗余光譜進行剔除,并對模型的輸入變量進行統一。在Matlab2018(a)軟件中通過Corrcoef函數[20]計算NDSI與胡敏酸含量的相關性系數,并對其排序,篩選出響應胡敏酸含量變化強烈的光譜,作為建模的特征光譜。
1.4.2 模型建立
結合已有研究[1,21-24],選取MLR、PLSR構建胡敏酸含量估算的線性模型,選取BPNN、SVM構建胡敏酸含量估算的非線性模型。
在SPSS 22軟件中構建MLR模型??紤]到光譜之間可能存在的共線性問題,選用后退法篩選聯合作用強的自變量,剔除對因變量影響不顯著的自變量。以95%作為變量誤差表征級別,對變量進行選入和剔除[25],構建基于原始光譜及其8種單波段變換的預測模型。
在Matlab2018(a)軟件中構建PLSR模型。翁永玲等[26]研究表明:PLSR在土壤組分高光譜估算中能有效地減少光譜維數,揭示最大組分含量變化的主控因子,且建立的模型有很好的穩定性。但也有研究表明:當土壤類型增多時,PLSR表現不出較好的預測效果[27]。本文是在田間尺度上對土壤組分含量進行預測,土壤類型單一,推測在建立PLSR模型時不存在上述問題。
在Matlab2018(a)軟件中構建BPNN模型。BPNN是一種按照誤差逆向傳播算法訓練的神經網絡,是目前應用最廣泛的神經網絡[28]。研究表明,BPNN能高速尋找優化解,充分逼近復雜的非線性關系[29]。本文在BPNN模型訓練中,通過輸入變量選擇來提高模型質量,從而充分發揮神經網絡的優勢。
在Matlab2018(a)軟件中構建SVM模型。SVM是一種以非線性映射為理論基礎的小樣本機器學習方法。SVM的精髓,是利用核函數對數據進行高效分類。徑向基核函數具有良好的分類功能,是最常用的核函數[30]。本文選用SVR_Epsilon模型、高斯徑向基核函數尋求模型最優解。
1.4.3 模型評價方法
利用建模集的R2、RMSE和驗證集的R2、RMSE、RPD來評價模型性能。R2值越大,說明模型擬合待測組分的能力越強。RMSE值越小,說明模型的估算精度越高。RPD值小于1.2時,模型不具可靠性;RPD值大于1.4時,模型具有可靠性;RPD值大于2時,模型可用于土壤組分的估算[29]。
將土樣中胡敏酸含量的測定結果整理于表1,樣本的值域大,變異強度中等,建模集、驗證集的平均值相近??梢?,建模集、驗證集具有較好的代表性,樣本劃分較為合理。

表1 土壤樣本的胡敏酸含量特征統計
以波段1為x軸,波段2為y軸,繪制基于原始光譜(RAW),和經CR、IR、LR、ILR、FDR、SDR、LFDR、IFDR變換光譜構建的NDSI(分別簡記為NDSI-RAW、NDSI-CR、NDSI-IR、NDSI-LR、NDSI-ILR、NDSI-FDR、NDSI-SDR、NDSI-LFDR、NDSI-IFDR)分布圖(圖2),色棒的數值表示NDSI數值。

NDSI,歸一化光譜指數。A,原始光譜;B,去除包絡線(CR);C,倒數(IR);D,對數(LR);E,一階導數(FDR);F,二階導數(SDR);G,倒數&一階導數(IFDR);H,對數&一階導數(LFDR);I,倒數&對數(ILR)。下同。
其中,NDSI-RAW、NDSI-CR、NDSI-IR、NDSI-LR、NDSI-ILR在全波段遵循有序的數值變換規律(由小到大或由大到小),相鄰光譜的NDSI差距小,特征光譜信息不突出。相反地,NDSI-FDR、NDSI-SDR、NDSI-LFDR、NDSI-IFDR值在全波段的分布無明顯規律性,整體呈綠色,同時存在小面積的突出斑點。結合NDSI色棒來看,斑點處波段的NDSI值與相鄰波段的NDSI值相差較大,對胡敏酸的響應敏感。這表示:經過FDR、SDR、LFDR、IFDR變換后的光譜NDSI值能夠有效區分冗余光譜和敏感光譜,突出特征光譜信息。其中,FDR變換后的光譜信息最為豐富,這與周倩倩等[22]的研究結果一致。
2.3.1 相關性分析
以波段1為x軸,波段2為y軸,繪制NDSI-RAW、NDSI-CR、NDSI-IR、NDSI-LR、NDSI-ILR、NDSI-FDR、NDSI-SDR、NDSI-LFDR、NDSI-IFDR與胡敏酸含量的相關性系數分布圖(圖3)。其中,NDSI-RAW、NDSI-IR、NDSI-LR、NDSI-ILR與胡敏酸含量的相關性系數在全波段范圍內分布較為均一,相關性系數差距不大;而NDSI-FDR、NDSI-SDR、NDSI-LFDR、NDSI-IFDR與胡敏酸含量的相關性系數在全波段分布不均勻,相關性系數大的區域和相關性系數小的區域區分明顯,相關性信息豐富。這與NDSI-FDR、NDSI-SDR、NDSI-LFDR、NDSI-IFDR在全波段的分布情況對應,說明這些變換能夠弱化無關組分,突出特征光譜。

圖3 原始光譜和經不同變換后光譜的歸一化光譜指數與胡敏酸的相關性系數在全波段的分布
經相關性分析,NDSI-RAW、NDSI-CR、NDSI-IR、NDSI-LR、NDSI-FDR、NDSI-SDR、NDSI-IFDR、NDSI-LFDR、NDSI-ILR與胡敏酸含量的最大相關性系數分別于(897.6,908.6)(分別對應于x,y坐標,下同)、(512.6,515.9)、(904.9,908.6)、(904.9,908.6)、(470.1,757.8)、(670.8,963.8)、(542.3,558.9)、(897.6、908.6)、(479.8、694.9)處取得。其中,導數及其組合變換(FDR、SDR、IFDR、LFDR)后的歸一化光譜指數與胡敏酸含量的最大相關性系數均高于0.500(圖4),相關性大。這與導數及其組合變換后的光譜能夠突出特征光譜信息密切相關。其中,NDSI-FDR與胡敏酸含量的最大相關性系數為0.557,相較NDSI-RAW提高0.115,可作為增強光譜敏感性的首選方法;而NDSI-CR與胡敏酸含量的相關性表現欠佳。

RAW,不變換。下同。
2.3.2 特征光譜分布
基于胡敏酸含量與光譜之間的相關性系數,篩選出胡敏酸與光譜響應強烈的光譜(即特征光譜),繪制特征光譜密度分布圖(圖5),定位胡敏酸響應光譜的準確位置。結果表明:在396~1 000 nm,有3處特征波段密集區。放大密集區,可將其分別定位到480~550 nm與510~570 nm組合處、730~790 nm與740~800 nm組合處、880~930 nm與880~930 nm組合處。為提高建模效率,剔除特征波段密集區外的光譜,將特征光譜密集區用作后續建模的輸入變量。

圖5 特征光譜在396~1 000 nm范圍內的分布
基于NDSI-RAW、NDSI-CR、NDSI-IR、NDSI-LR、NDSI-ILR、NDSI-FDR、NDSI-SDR、NDSI-LFDR、NDSI-IFDR主要特征光譜,分別利用MLR、PLSR、BPNN和SVM建立估算胡敏酸含量的模型,記錄其在建模集和驗證集上的R2、RPD、RMSE值(圖6),并根據上述參數對模型進行初步評價。基于BPNN建立的預測模型的R2(含建模集和驗證集)高于MLR、PLSR、SVM,說明BPNN預測模型的精度較高,擬合胡敏酸含量的能力較強。

A,多元線性回歸(MLR)模型;B,偏最小二乘(PLSR)模型;C,反向神經網絡(BPNN)模型;D,支持向量機(SVM)模型。建模集上的決定系數;驗證集上的決定系數;RPD,相對分析偏差。
利用MLR、PLSR、BPNN、SVM建立的模型中,RPD值大于1.4的數量分別為6、1、3、3個。其中,利用MLR建立的預測模型的整體可靠度高于BPNN、PLSR、SVM。但是,模型性能是精度、可靠性、穩定性的綜合體現。為此,將RPD值大于1.4的預測模型的評價參數(R2、RPD、RMSE)整理于表2,做進一步分析,以篩選出最佳估算模型。橫向對比發現:MLR模型建模集和驗證集的R2均較低,模型擬合性不佳?;贜DSI-IFDR建立的PLSR模型的RPD值達到了1.620,模型具有一定的可靠性,但是建模集和驗證集上的R2分別為0.734和0.212,建模精度、驗證精度相差較大,模型存在過擬合現象。同PLSR建模結果相同,SVM模型建模集上的R2明顯高于驗證集,說明該模型也存在過擬合現象,且建模集和驗證集上的RMSE相差大,模型穩定性差。RPD值大于1.4的3個BPNN模型,其建模集和驗證集上的R2均處于較高水平,且RMSE值較為接近,說明模型性能較好。其中,基于NDSI-LFDR建立的BPNN模型,建模集和驗證集上的R2分別為0.916和0.805,RMSE分別為0.799、1.107,模型精度最高,穩定性好,且RPD大于2,說明該模型可以用于土壤胡敏酸含量估算。

表2 RPD值大于1.4的模型參數
本文共篩選出3處特征波段密集區,其中,480~550 nm與510~570 nm組合處、730~790 nm與740~800 nm組合處的特征波段與郭晗等[31]在土壤有機質含量預測中篩選出的有機質歸一化光譜指數敏感區域吻合??梢?,有機質、胡敏酸對光譜的響應存在一定的聯系。洪永勝等[32]指出,光譜對有機質的響應是由胡敏酸引起的。理想情況下,有機質、胡敏酸的特征波段應該完全吻合。但本文結果表明,880~930 nm與880~930 nm組合處是胡敏酸獨有的特征波段密集區。這說明,本研究篩選出的特征波段更全面。這與有機質、胡敏酸的物理、化學穩定性密切相關。胡敏酸組成相對單一,物理化學性質穩定,能夠不受環境影響在土壤中停留80~3 000 a,對光譜的響應準確、穩定。有機質含量、內部組成與周圍環境顯著相關[33-35],時間、空間穩定性差。相比之下,本文直接以胡敏酸為光譜響應組分篩選出的特征光譜更加可靠、全面,建立的土壤胡敏酸含量估算方法也更具可行性。
單波段變換能夠有效增強光譜與待測組分之間的相關性,但是待測組分不僅與單波段存在聯系,還與雙波段、甚至多波段存在復雜的關系。本文在對光譜進行單波段變換的基礎上,采用歸一化的方法,將原始光譜和變換后的光譜兩兩組合,構建了包含雙波段光譜信息的NDSI-RAW、NDSI-CR、NDSI-IR、NDSI-LR、NDSI-FDR、NDSI-SDR、NDSI-IFDR、NDSI-LFDR、NDSI-ILR。相關性分析中,不同歸一化光譜表現出不同的效果,導數及其組合處理后的NDSI值(NDSI-FDR、NDSI-SDR、NDSI-IFDR、NDSI-LFDR)在全波段范圍內分布不均勻,大量指數值位于NDSI值域中位數附近,少量指數值位于值域最大值或最小值附近,特征光譜十分突出。相比之下,NDSI-RAW、NDSI-CR、NDSI-IR、NDSI-LR、NDSI-ILR分布較為均勻,特征光譜與背景噪聲難以區分。與此對應,導數及其組合變換的NDSI在與胡敏酸含量的相關性分析中也取得較高的相關性系數,這與盧艷麗等[36]研究結果一致。其中,以NDSI-LFDR作為建模輸入變量時,建模效果最佳。這是由于單波段變換與雙波段變換的合理組合能夠充分綜合不同變換的優勢,最大化詮釋光譜信息[37]。在以后的研究中,還需加強其他單波段變換與雙波段變換方法組合的探索,增強光譜詮釋信息的能力。
利用BPNN建立的胡敏酸估算模型具有較高的建模精度和估算精度,明顯優于MLR、PLSR、SVM。這與Tian等[38]在土壤有機質含量預測中的表現一致??傮w來說,BPNN模型的學習能力強,能夠挖掘復雜交互的非線性關系[39]。但是,BPNN是“黑箱”操作模式,難以了解輸入與輸出之間的復雜關系,為了追求高精度,常會導致過擬合。以NDSI-RAW、NDSI-CR、NDSI-IR、NDSI-LR、NDSI-ILR、NDSI-SDR為輸入變量建立的BPNN估算模型中,出現了高精度與低可靠性并存的現象。Meng等[2]研究發現,選擇最適變換光譜與BPNN結合,能夠有效地提高建模效果。本文以NDSI-LFDR、NDSI-FDR、NDSI-IFDR作為BPNN輸入變量時,建立的模型兼具高精度、高穩定性、高可靠性。
在實際應用中,計算時間也是評價模型的重要指標。雖然BPNN建模效果最佳,但也存在著計算時間長、對計算設備性能要求高的弊端。在以后的研究中,需要將計算時間納入模型評價體系中[40-41]。
本文針對當前土壤組分高光譜估算面積大、模型難以在地塊應用的問題,結合當前精準農業發展需求,針對理化性質穩定、不易受環境影響的胡敏酸的含量進行估算。以機載高光譜為數據源,以田間尺度為研究范圍,利用MLR、PLSR、BPNN、SVM建立胡敏酸含量的高光譜估算模型。結果表明:導數變換在加強機載特征光譜與胡敏酸的聯系、去除冗余信息上表現優秀。在眾多變換中,導數變換與對數變換的組合能夠充分結合二者詮釋信息的優勢,在突出光譜特征方面效果最明顯。基于特征光譜建立的模型中,BPNN的建模精度明顯高于MLR、PLSR、SVM。其中,基于NDSI-LFDR建立的BPNN預測模型在建模集和驗證集上的R2分別為0.916、0.805,RMSE分別為0.799、1.107,RPD為2.189,建模效果最佳。本文對田間尺度胡敏酸含量估算的研究,可為精準農業土壤組分精細化、高效化監測提供參考。