湯能肖志云王生富
(1.內蒙古工業大學電力學院,內蒙古 呼和浩特 010080;2.內蒙古自治區機電控制重點實驗室,內蒙古 呼和浩特 010051;3.內蒙古自治區農村牧區社會事業發展中心,內蒙古 呼和浩特 010020)
銨態氮是植物生長發育必需的營養元素,在土壤微生物的作用下進行硝化作用轉化成硝態氮素,進而增強氮素在土壤中的移動性,更好地被植物根系吸收,在植物的生長過程中起關鍵作用。故而銨態氮含量指標被廣泛用于土壤養分供應能力的分析中[1-3]。隨著科學技術的迅猛發展,高光譜技術為高效快速檢測土壤屬性提供了新的技術和方法[4]。針對高光譜成像技術的特征變量篩選問題,大量學者已進行了眾多相關研究。李江波等[5]利用競爭性自適應重加權算法(CARS)、遺傳算法(GA)和蒙特卡羅無信息變量消除算法(MC-UVE)對光譜特征變量進行篩選,并建立偏最小二乘(PLS)預測模型,結果表明,CARS-PLS預測模型的精度最高且篩選變量最少。Fan等[6]選擇競爭性自適應重加權算法CARS選取特征變量后,再選取連續投影法(SPA)進一步篩選有效特征變量,在簡化預測模型的同時更提升了模型預測精度。孫宇樂等[7]對土壤光譜用微波雷達四極化后采用相關分析法過濾篩選土壤屬性特征變量取得較好的效果。朱淑鑫等[8]在研究土壤速效鉀時,就光譜數據冗余、維度過高問題,將K均值法與連續投影算法耦合篩選光譜特征變量,有效提取了建模精度較好的特征變量。齊海軍等[9]通過對平滑后的光譜數據進行標準正態變換來消除土壤顆粒、表面散射、光程變化對光譜曲線的影響,根據變量投影重要性篩選出后續較好的建模特征變量。李焱等[10]通過提取特征變量,以多元逐步線性回歸和偏最小二乘回歸建模,發現采取二階微分變換后,以偏最小二乘回歸建模R2達到了0.96最佳。劉九材等[11]利用高光譜技術進行蘋果品種鑒定并分析不同的特征變量篩選算法,研究表明,模擬退火算法能夠有效地篩選出特征變量。周偉等[12]提取糧蟲特征時采取模擬退火算法能精準篩選最優特征,驗證其特征篩選的可行性。
因此,為進一步探究土壤高光譜特征變量的優選方法,以建立優化的土壤銨態氮預測模型,本文分別采用CARS、SAA以及CARS-SAA進行特征變量篩選,并利用PLSR和RF相結合的模型,建立土壤銨態氮的預測模型??焖儆行У貙犹坠鄥^土壤銨態氮含量進行預測,為實現土壤銨態氮的高光譜技術在線檢測奠定理論基礎。
五原縣位于內蒙古自治區巴彥淖爾市,東臨包頭,西接臨河,南隔黃河,北依陰山。地處河套灌區腹地沉積了較厚的肥美土質。氣候偏向中溫帶大陸性氣候,適合農作物及各種植被的生長。雖然部分土地鹽堿化,但不影響耐堿作物如葵花、高粱等作物生長[13]。實驗研究區位于五原縣隆興昌鎮農業生產基地,如圖1所示,主要以種植向日葵、玉米、高粱等農作物為主,是內蒙古地區農業高產高效的實驗基地。

圖1 研究區位圖
土壤樣本通過前往河套灌區野外實地調查取樣,根據研究區域耕種面積,本次共采集土壤樣本70份,采集土壤時采用網格布局法,每個采樣點間距為5m,每份土壤采樣深度為15cm,每個土壤樣本采集重量為100g。將土壤裝進保鮮密封袋內帶回,經過篩去除草根、碎石等雜質,每個土壤樣本分為2份分別不同處理。
1份利用土壤養分分析儀采用化學方法來測定土壤銨態氮含量的真實含量數據。將土壤用研缽研磨后再用篩子過篩放置于直徑8cm、深2cm的四周涂黑的玻璃皿中,每個土壤玻璃皿樣本中選取3個區域測量得出實測銨態氮含量。采用SPXY算法將70個土壤樣本中的52個樣本劃為建模集,其余18個樣本劃分為驗證集,劃分結果如表1所示。

表1 土壤樣本集銨態氮含量統計
另1份則采用實驗室配備的一款產自芬蘭的便攜式高光譜相機Specim IQ進行河套灌區土壤樣本的高光譜數據測定,該高光譜相機的測定波長范圍為400~1000nm,光譜分辨率為3nm,在光譜維度上記錄的光譜波段數量為204個。測定土壤前利用標準白板進行校準和調整,白板校正可以消除環境不匹配的問題。同時采集過程中為了減少外界環境對測定結果的影響,測定全程在密閉無外界干擾的環境下進行。將裝有土壤的涂黑的玻璃皿放在中間實驗臺上,以50W鹵素燈為測定光源,傾斜45°角,距離土樣表層75cm進行照射,用高光譜相機進行拍攝。實驗室高光譜拍攝系統如圖2所示。

圖2 室內拍攝系統
將拍攝到的土壤高光譜圖像用ENVI 5.3軟件標記出在之前測量銨態氮真實值的3個區域作為感興趣區域(Region of interest,ROI),與用土壤養分分析儀測量的真實值一一對應。70個樣本共計提取出210條光譜曲線。
為消除實驗土壤樣本間散射導致的基線偏移和減少平滑對有用信息的影響,同時也為了便于尋找和提取土壤銨態氮的高光譜敏感特征變量,本文對采集到的土壤樣本的原始反射光譜曲線進行Savitzky-Golay平滑,多元散射校正(MSC),微分變換以及組合處理的土壤光譜數據預處理[14]。
1.4.1 CARS特征變量篩選
CARS是一種可以用來選取特征變量的算法,是由PLC模型回歸系數、蒙特卡洛采樣法相結合得出,CARS模擬“適者生存”的原則,進行自適應加權采樣的同時剔除PLS模型中回歸系數絕對值權重較小的點,保留權重較大的點建構起新的子集,在新的子集的基礎上建立PLS模型,經進行一系列計算后,選定PLS模型交互驗證均方根誤差(RMSECV)最小的子集中的波長作為特征波長,詳細過程如下[16]。
選用蒙特卡羅采樣法,每次隨機抽取樣本的80%作為建模集,余下樣本作為驗證集,進行PLS模型的建構。對蒙特卡洛的采樣次數(N),必須預先進行設定。在N次采樣過程中,需依次記錄PLS模型中回歸系數的絕對值權重。
(1)
式中,m為單次采樣中余下的變量數;|bi|為第i個變量的回歸系數絕對值;|wi|為第i個變量的回歸系數絕對值權重。
利用指數衰減函數強行去除回歸系數絕對值權重較小的波長。在第i次基于蒙特卡洛采樣建立PLS模型時,根據指數衰減函數得到保留的波長點的比例Ri:
Ri=ue-ki
(2)
式中,u和k是常數,可以按照以下2種情況計算。
在首次采樣并進行相應計算時,各波長都參與了建模分析,故而留下的波長點的比例為1。
在第N次采樣完成并進行計算時,參與PLS建模的波長僅有2個,因而保留的波長點的比例為2/n,n對應的是原始波長點數。由此可知,u和k的計算公式:
(3)
(4)
每次采樣時,都是采用自適應加權采樣(ARS)在上一次采樣時的變量數中選擇相應數量的波長變量,進行PLS建模,計算交叉驗證均方差。
完成N次采樣后,得到N組候選的特征波長子集,以及對應的選擇交叉驗證均方差值,選擇交叉驗證均方差值最小值所對應的波長變量子集為特征波長。
1.4.2 SAA特征變量篩選
SAA在諸多領域都得了突出的應用,然而在近紅外高光譜技術中運用還較罕見。此算法的優點在以一定概率接收差解用于跳出局部最優解,達到全局最優解,完成高光譜特征變量的篩選。這是一種模擬固體降溫過程中內部變化規律進行優化的方法。模擬退火算法收斂速度取決于起始溫度T0、終止溫度Tf,馬爾可夫鏈長度LK等,故而對控制算法進程的參數需做到合理選擇,確保在有限時間內算法能夠返回一個近似最優解是非常關鍵的[17]。
退火過程由冷卻進度表控制。目的是使得系統能夠盡量保持平衡,在有限時間內,確保算法能夠逼近最優解。參數具體有第k個馬爾科夫鏈的長度LK,控制溫度參數初值T0和終值Tf,以及在k個溫度控制的參數值Tk。若經LK次計算后,得到的解的概率分布與T=Tk時的分布高度接近,則反映出模擬退火算法達到準平衡。由此能夠得出,在T有著足夠大數值的情形下,該算法能夠立刻實現準平衡,其中變量Tk衰減量越大,則相應花費越長的LK才可恢復準平衡,因而如果選取小的衰減量,能夠有效避免過長。此外,在收斂性、執行效率方面,也是算法實際需要考量的[18]。綜上,最后設置T0=100℃;Tk=0.95T,Tf=1℃,Lk=50為本次實驗SAA特征變量篩選的參數。然而將土壤高光譜數據采用SAA特征變量篩選,雖然簡化了建模的復雜度,但拍攝的土壤高光譜數據量巨大導致模擬退火算法產生的計算量大,在實際處理花費的時間較長。
1.4.3 CARS-SAA特征變量篩選
因CARS選擇后仍有著較多數量的特征變量,且蒙特卡羅采樣過程表現出一定的隨機性,故而CARS篩選的特征變量并非具有固定性,可能未完全消除無關變量,建立的模型結果不穩定[16]。而SAA篩選特征變量雖然簡化了建模復雜度,提高模型精度,但由于高光譜數據存在大量冗余信息數據量大,導致SAA在特征變量選取時就會相應地增加算法搜索時間從而使得計算量非常大,需要花費較長時間。
由此本文提出利用SAA對CARS提取的特征變量再次進行變量篩選處理,降低因為CARS產生的隨機性問題,將篩選的特征變量更加優化使與銨態氮含量有關的信息變量被篩選的概率得到提升,不僅穩定預測模型精度,還解決了SAA單獨使用過程中其計算量繁瑣,運算時間緩慢的問題。
為避免使用單一的模型反演導致訓練數據中的某些相關信息變量缺失以及避免單個模型預測效果不佳的風險,本研究采用了偏最小二乘回歸與隨機森林回歸的結合模型(PLSR-RF、RF-PLSR),2種模型相結合可以擴大假設空間,使數據之間在模型中包含盡可能多的真實性,進而提高了模型對數據的逼近能力,達到更高的預測精度[19]。
在模型精度上選用均方根誤差(RMSE)、決定系數(R2)、相對分析誤差(RPD)進行評價,RMSE越小,R2越接近1,模型越穩定[19]。如果RPD≥2,意味著模型的估測能力較好;如果1.4≤RPD<2.0,意味著模型能夠粗略估測樣本含量;如果RPD<1.4,意味著模型預測能力極差,無法估測樣品含量[20]。
由于高光譜拍攝相機本身以及采集系統所在外部環境的影響,采集到的高光譜信息會出現噪聲、基線漂移等現象,光譜預處理可消除不利因素的影響。如圖3所示,對采集到的原始光譜曲線,故而需使用SG平滑、多元散射校正(MSC)、平滑一階微分變換(SG-FD)等多種方法進行預處理,并分別建立PLSR-RF、RF-PLSR模型,經后續建模效果對比后發現,在預處理效果上,SG-FD有著最佳表現,故而后續均基于SG-FD方法進行預處理。

圖3 土壤原始光譜曲線
SG-FD預處理后的光譜反射率曲線如圖4所示,可知因銨態氮含量不同,光譜曲線的等級差異及基線漂移和背景干擾均得以有效消除,并放大光譜曲線的細節特征。

圖4 SG-FD變換光譜曲線
基于CARS進行特征變量的篩選,能夠使得光譜變量間的高度共線性問題得到改善,從而使得預測模型具有更高的速度和精度[21]。如圖5所示。

圖5 CARS關鍵變量選擇
能夠發現優選變量的數量均隨迭代次數的增加呈指數減少,其交叉驗證均方差值整體呈現先減后升的趨勢,運行次數增加,相應有著越少的變量數被選出,前9次采樣有明顯減少,此后趨平穩。在前9次采樣中,整體上交叉驗證均方差值呈逐步降低,反映出篩選過程中剔除的變量并不會影響到銨態氮去除量,而第9次采樣迭代以后,交叉驗證均方差值出現回升,反映出反射率光譜中有大量添加與銨態氮無關的噪聲或信息,從而導致交叉驗證均方差值上升。在第9次采樣時,交叉驗證均方差值最小,也就是選擇的子集最優。CARS最終選擇出40個特征變量,將篩選的特征變量顯示在一條原始光譜曲線上的分布如圖6所示。

圖6 CARS特征變量分布圖
提取后得到的40個特征變量作為SAA的輸入,再進一步利用SAA對高光譜數據波長再次。本次實驗所采用的SAA在退火過程中以一定的概率接受惡化解時,能夠記住當前最優解,保證優化過程中最優解不會因為接受惡化解而退化。最終從高光譜數據的204個波數點中優選出519.25nm、622.26nm、678.71nm、714.55nm、810.86nm、886.84nm、889.90nm、892.95nm、917.42nm、935.81nm共10個特征變量,僅占全光譜波長變量的4.9%,和單純用SAA提取特征變量過程相比,大大減少了計算量。特征變量如圖7所示,集中在620~680nm、880nm~900nm附近。CARS-SAA特征變量篩選不僅消除無關的變量并減少變量之間的共線性,提高預測模型的精度及速度,同時將CARS篩選的特征變量利用SAA進一步優化使篩選有用信息變量的概率增大穩定了預測模型精度,也避免了SAA算法其計算量大的問題。

圖7 CARS-SAA特征變量分布圖
以全光譜(full-spectra,FS)、CARS、SAA和CARS-SAA篩選的量作為模型的輸入自變量,銨態氮含量作為因變量分別建立PLSR-RF、RF-PLSR回歸模型并計算模型評價指標,模型預測結果如表2所示。從表2可以看出,不同的篩選變量方法以及不同的建模方法,其精度有一定的差異。從模型評價指標可知,將全光譜直接進行建模效果并不是很好,其驗證集決定系數R2均未超過0.5,RMSE值均超過3.4mg·kg-1,RPD值范圍在1.4~2.0,表示該模型可以對土壤銨態氮含量進行粗略估測。

表2 銨態氮含量回歸模型
單獨使用CARS和SAA篩選方法建立的模型與全光譜建立的模型相比精度和穩定性有了很大的提升,其中以SAA-PLSR-RF模型最佳,其驗證集決定系數R2為0.856,RMSE值為1.924mg·kg-1,RPD值為2.632,已經具有較好預測土壤銨態氮含量的能力。將2種篩選變量方法結合后通過建模分析發現,CARS-SAA篩選變量后建立的PLSR-RF模型精度達到了最高,其驗證集決定系數R2為0.902,RMSE值為1.583mg·kg-1,RPD值為3.198,具有最佳的預測土壤銨態氮含量的能力。
為了進一步觀察土壤銨態氮的模型反演效果,選擇采用CARS-SAA篩選方法建立的預測效果最好的模型為例,繪制模型的土壤銨態氮驗證集的實測值與預測值的1∶1散點圖。如圖8、圖9所示。從圖8、圖9可以看出,CARS-SAA-PLSR-RF更接近1∶1線,模型預測精度最高。綜上所述,CARS-SAA是一種有效的高光譜數據特征變量篩選方法,利用該方法結合PLSR-RF可以準確預測土壤銨態氮含量,同時提高檢測的實時性。

圖8 CARS-SAA-RF-PLSR散點圖

圖9 CARS-SAA-PLSR-RF散點圖
以內蒙古自治區巴彥淖爾市五原縣的河套灌區糧食生產基地為實驗研究區,以70個土壤樣本的銨態氮含量為研究對象,使用實測的高光譜土壤數據和土壤銨態氮含量,經預處理后采用CARS、SAA和CARS-SAA方法對土壤高光譜全波長進行特征變量的篩選,并分別構建PLSR-RF和RF-PLSR模型,研究表明,在預測精度上基于CARA-SAA建立的模型與單個篩選方法相比較有著更優表現,能夠得出CARS可使得變量集更少存在共線性問題,并能夠保留強信息變量,但是CARS篩選后,仍有干擾或無關信息變量存在的可能性,因而在預測精度上模型仍具有提高的空間。對CARS篩選后獲取的變量,進行SAA篩選,在預測精度得以保證的前提下,縮減變量數,并有效避免變量篩選過程中的計算量大、復雜度較高且運算時間長的問題。結合PLSR-RF建立的模型,在預測效果上有著良好表現,故而能夠認定CARS-SAA是一種有效的高光譜數據特征變量篩選方法,CARS-SAA-PLSR-RF模型可以快速有效地對河套灌區土壤銨態氮含量進行預測,為高光譜在線檢測提供了理論依據,也為后續對土壤及其他成分含量的分析帶來新的研究思路和方法。