999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于sCARS-RF算法的高光譜估算土壤有機質含量

2019-08-20 10:15:38李冠穩高小紅肖能文肖云飛
發光學報 2019年8期
關鍵詞:特征模型

李冠穩,高小紅,肖能文,肖云飛

(1.青海師范大學 地理科學學院,青海 西寧 810008;2.青海省自然地理與環境過程重點實驗室,青海 西寧 810008;3.中國環境科學研究院,北京 100012)

1 引言

土壤有機質是土壤肥力和土壤質量的重要指標,是農業土壤最重要的參數之一[1]。快速、精準地掌握有機質含量的空間變化,是精準農業實施和農業可持續發展的重要內容[2]。使用傳統化學方法測量土壤有機質含量,分析過程周期長、成本高、一次只能檢測一個項目,且對環境有一定污染,很難大規模推廣使用[3]。可見-近紅外(Visible and near infrared,Vis-NIR)光譜分析技術能夠快速、大范圍地重復獲取同一區域的土壤信息,逐漸成為土壤屬性信息快速與長期監測的重要手段之一;且Vis-NIR光譜分辨率高、波段信息豐富,這使得可見-近紅外光譜分析技術在土壤有機質的預測分析中表現出巨大的研究潛力[4-7]。但在實際應用中,NIR光譜區域是由含氫基團的倍頻和合頻吸收峰組成,光譜信息重疊嚴重,篩選出土壤有機質的光譜響應波段是簡化模型和提高模型預測能力的關鍵。

特征波長選擇是可見-近紅外光譜研究的一個重要步驟,己經引起了越來越多學者的關注[8-9]。李艷坤等[10]基于集群策略和UVE技術,并進一步結合小波變換,得到了更為簡約的模型,提高了PLS模型的預測穩定性能。劉珂等[11]通過一致性策略和連續投影算法結合從全譜波長中選出的一系列波長子集,然后分別基于這些波長子集建立模型,取得了較為滿意的預測效果。林志丹等[12]應用SPA和GA進行波長優化,并建立土壤有機質Vis-NIR估算模型,結果顯示,對原始光譜進行特征波長優選能夠顯著提高模型的精度。競爭性自適應重加權算法(Competitive adaptive reweighted sampling,CARS)是由梁逸曾團隊開發的一種特征波長變量選擇算法,以偏最小二乘模型中回歸系數絕對值大小確定最優變量子集[13],而穩定競爭性自適應重加權算法(Stbility CARS,sCARS)以變量的穩定性為衡量指標,并延續CARS算法的變量篩選流程,被證明是一種較優的特征變量選擇方法[14]。如劉國富等[15]基于sCARS策略挑選NIR光譜區域特征變量,變量選擇的穩定性和準確性都得到了增強,提高了模型精度,預測均方根誤差和相關系數分別為0.054 3和0.990 8。丁泊洋等[16]采用sCARS算法挑選特征變量建立多元校正模型,預測相關系數RP為0.978 1,具有較好的預測能力。然而張曉羽等[14]、劉國富等[15]和胡靜等[16]均是利用sCARS方法篩選特征變量,并建立線性的偏最小二乘回歸(Partial Least Squares Regression,PLSR)模型,與非線性的隨機森林(Random forest,RF)建模方法結合的并不多見。與PLSR模型相比,RF模型魯棒性更好,對異常值和噪聲的敏感度更低。

因此,本研究基于青海省湟水流域401個表層土壤的Vis-NIR光譜,應用sCARS方法進行特征波長變量篩選,建立較為簡潔、穩定性更好的PLSR和RF模型,并與CARS、IRIV、SPA和GA方法的PLSR和RF模型結果進行比較,探索sCARS算法結合RF模型快速估測土壤有機質含量的可行性,為土地質量評價和高空間分辨率數字化土壤制圖提供數據支持。

2 材料與方法

2.1 土壤光譜數據采集與預處理

我們于2015、2016年10—11月期間,采集青海省湟水流域表層土壤(0~20 cm)共428個土壤樣品,土壤類型主要為栗鈣土、黑鈣土、灰鈣土、山地草甸土、高山草甸土以及灰褐土;并于室內自然風干,研磨,過100目篩。有機質含量采用重鉻酸鉀-外加熱法測定。使用美國ASD FieldSpec 4光譜儀采集土壤Vis-NIR光譜數據。于暗室內將過篩的土壤樣品倒入涂黑的盛樣器皿中,減少了外界雜散光的影響,提高光譜質量。盛樣器皿直徑為10 cm、高度為1.5 cm。光源為光譜儀配套的75 W鹵素燈,天頂角為30°,距樣品表面45 cm,光線幾乎是平行入射到樣品上,減少了由于土壤顆粒分布不均勻所造成的陰影影響。儀器光纖探頭視場角為25°,垂直向下距樣品表面10 cm處,探頭接收土壤光譜的區域直徑為5 cm,小于盛樣器皿的直徑,這樣既能避免外界雜散光的影響,又能使光纖探頭接收到的信號均為土壤樣品的反射光譜信息。儀器預熱30 min之后進行白板定標,每個土壤樣品采集4個方向(間隔90°)共20條光譜曲線,為減少測量時土壤樣品光譜各向異性的影響,取20條光譜曲線的算術平均值作為該土壤樣品的實際反射光譜數據[17]。土壤樣品最終光譜曲線如圖1(a)所示。剔除原始光譜中噪聲較大的波段(350~400 nm和2 401~2 500 nm),并聯合使用多元散射校正(Multiplicative scatter correction,MSC)、中值濾波(Median filter,MF)和一階微分(1st derivative)對原始光譜進行預處理。圖1(b)為經MSC-MF-1st Der預處理后的光譜曲線,從圖中可以看出,原始光譜經預處理后,不同有機質含量光譜曲線等級特征不再明顯,有效地消除了基線漂移及其他背景的干擾,光譜曲線的細節特征更加突出。

圖1 土壤樣品原始光譜(a)及預處理光譜(b)反射率曲線Fig.1 Raw(a)and pretreatment spectral(b)reflectance curve of soil samples

2.2 方 法

2.2.1 穩定競爭性自適應重加權采樣算法(sCARS)

矩陣XN×P為所測樣本光譜數據,N為樣本數量,P為變量數。sCARS算法具體步驟為:

(1)計算每個波長變量的穩定性值cj,cj定義如公式(1):

(1)

(2)使用強制波長選擇和自適應性重加權采樣方法(ARS)篩選出變量穩定性值較大的組成一個變量子集,篩選出的變量數占全波段的比率由指數衰減函數(Exponential decay function,EDF)計算。

(3)重復步驟(1)~(2)形成循環,最終得到K個變量子集,建立PLSR模型,然后采用十折交叉驗證對這些變量子集進行評估,RMSECV值最小時對應的變量子集作為最后的特征變量子集,K為sCARS算法的循環次數。

2.2.2 隨機森林(Random forest,RF)

RF模型是一種分層非參數方法,融合了隨機特征選擇和Bagging算法兩大機器學習技術,與傳統的分類器算法相比,不但能較好地容忍異常值和噪聲,而且能同時處理連續型和離散型數據[18]。RF模型建模步驟如下:

(1)利用bootstrap重抽樣技術從原始訓練集N中有放回地重復隨機抽取k個樣本生成新的訓練樣本集合;

(3)每棵樹最大限度地生長,使每個節點的不純度達到最小,不做任何修剪;

(4)生成多棵樹以形成隨機森林,利用隨機森林分類器對新的數據進行判別與分類,分類的結果是由樹分類器的投票數決定的。

2.3 建模樣本集劃分

異常樣本的存在會對模型的性能產生嚴重的干擾,因此在光譜建模分析之前有必要對異常樣本進行識別與剔除[19]。采用主成分分析結合馬氏距離法剔除異常樣本,共剔除異常樣本27個,最終用于分析的土壤樣本共401個。

將異常樣本剔除后的401個土樣按有機質含量從高到低排序,按2∶1的比例劃分校正集和驗證集樣本。表1為校正集和驗證集土壤有機質含量統計表。校正集中土壤有機質含量范圍為4.86~148.74 g·kg-1,平均值為32.47 g·kg-1;驗證集有機質含量范圍為8.26~133.56 g·kg-1,平均值為32.16 g·kg-1。濃度梯度法所劃分的校正集樣本組分含量涵蓋了預測集樣本組分含量,避免了過多的“特殊”樣本劃分為建模集,這樣建立的模型能夠更好地預測未知樣本。

表1 校正集和驗證集土壤有機質含量統計表Tab.1 Soil organic matter content statistics of calibration sets and validation sets g·kg-1

2.4 模型精度評價

采用Chang等[20]給出的評判等級,當RPD小于1.4時,表明模型不具備估算能力;當RPD大于等于1.4小于2時,表明模型可對樣本進行粗略估算,且可以通過改進模型方法提高模型的預測能力;當RPD大于等于2時,表明模型可以較好地對樣本進行估算。

3 結果與討論

3.1 特征變量選擇

3.1.1 sCARS算法特征變量選擇

sCARS算法以變量穩定性作為變量選擇衡量指標,增強了變量選擇的穩定性,并延續CARS算法變量篩選流程。圖2為采用sCARS算法挑選特征變量過程圖,從圖2(a)中可以看出,隨著sCARS算法迭代次數的增加,所保留的波長數量逐漸減少,且減少速度由快到慢,表明sCARS算法挑選特征波長變量過程中具有“粗選”和“精選”兩個階段,且“粗選”和“精選”兩個階段存在轉折點。圖2(b)為十折交叉驗證RMSECV值變化趨勢圖,可以得知,隨著運行次數的增加,RMSECV值呈先由大到小再由小到大的變化趨勢。當運行次數為27次時,RMSECV值最小,表明在1~27次變量篩選運行過程中,剔除了與土壤有機質含量相關性較小的波長,對建模結果影響不大;而27次之后RMSECV值開始上升,可能是由于刪除了與土壤有機質含量相關的變量導致RMSECV值增大,模型效果變差。結合圖2(c)回歸系數路徑變化圖可以發現,當運行次數為27次時,RMSECV值最小,即選擇的特征波長子集最佳,共選擇51個特征變量,僅占總變量數的2.55%。圖3為sCARS算法挑選的51個特征變量在一條光譜曲線上的分布情況。

圖2 sCARS算法變量篩選流程Fig.2 Variable selection process by sCARS method

圖3 sCARS方法挑選的特征變量分布圖Fig.3 Distribution map of characteristic variables selected by sCARS method

3.1.2 CARS、IRIV、SPA、GA算法特征變量選擇

CARS算法利用指數衰減函數和自適應重加權技術優選出偏最小二乘模型中回歸系數絕對值大的變量點,去除權重值較小的點,再基于十折交叉驗證,選出均方根誤差最小的變量子集,確定為最優變量組合。本研究基于CARS算法共選擇59個特征變量,占全部變量數的2.95%。CARS算法的優點是速度快,最終選出的特征變量的化學意義也比較容易解釋,但其選擇的特征變量不穩定。

IRIV算法是由中南大學梁逸曾教授課題組提出的一種基于模型集群分析策略的波長選擇算法[21],將信息變量分為強信息變量、弱信息變量、干擾變量和無信息變量。IRIV由隨機子集生成、子集模型建立、模型參數分析三個環節構成,相對于一般的波長選擇算法,IRIV算法具有在波長選擇時呈現出軟收縮的特點,因此一般能更為穩妥地保留有效波長,但其缺點是計算量較大,因此應用受到限制[22]。本研究基于IRIV算法保留的強信息和弱信息變量數為63個,占全部變量的3.15%。

SPA算法是一種新興的波長選擇算法[23],其原理為基于連續投影策略選擇與某一點波長線性相關最小的波長構成一個波長子集,重復上述操作,直至全部波長點選擇完畢;然后基于這些波長子集建立模型,根據模型精度進而挑選出最優的波長子集。本研究采用SPA算法共選擇出5個最優特征變量,占全部變量的0.25%,分別為1 361,1 758,1 909,2 049,2 213 nm。SPA算法可以盡可能地消除波長變量間共線性的影響,提高特征變量的選擇能力,但其缺點是在挑選特征變量過程中傾向于選擇共線性較小的變量點而不是有效變量點,因此該算法選擇特征變量也不穩定。

GA算法是一種通過模擬自然進化過程搜索最優解的方法[24]。借鑒生物的自然選擇和遺傳機理,遺傳算法主要通過編碼、種群初始化、適應度函數、遺傳操作和終止條件等步驟優化選擇。GA算法具有全局最優、易實現等特點,成為目前最為常用的一種波長選擇算法。但同時由于隨機選擇初始種群,選擇、交叉和變異都具有很強的隨機性,因此不能保證每個波長選擇結果的一致性,故本研究擬采用多次(10次)運行GA算法,選取特征變量篩選結果中出現頻率較高的波長,最終作為特征波長用于構建模型,按該方法從原始光譜中共選取186個特征波長變量,占全部變量的9.3%。

圖4為CARS、IRIV、SPA、GA算法挑選的特征變量在一條光譜曲線上的分布。從圖3和圖4中可以看出,5種變量篩選方法挑選的特征波長變量主要分布在1 900~2 400 nm的近紅外光譜區域,其中sCARS、CARS、IRIV、GA法篩選的特征變量在可見-近紅外光譜區域均有分布,而SPA算法挑選的特征變量較分散地分布于近紅外光譜區域內,可見光區域均未被選擇。

圖4 CARS(a)、IRIV(b)、SPA(c)和GA(d)算法篩選特征變量分布圖。Fig.4 Distribution map of characteristic variables selected by CARS(a),IRIV(b),SPA(c)and GA(d)method.

3.3 PLSR建模

表2 不同變量篩選方法PLSR建模精度Tab.2 Accuracies of PLSR modeling with different variable selection methods

圖5 sCARS-PLSR模型預測值和實測值散點圖Fig.5 Scatter diagram of predicted and measured values for the sCARS-PLSR model

3.4 RF建模

圖6為sCARS-RF模型校準集和驗證集樣本實測值和預測值的散點圖。從圖中可以看出,sCARS-RF模型校正集和驗證集數據點均較為均勻地分布在1∶1直線的兩側,達到了較高的預測水平,這與上述分析一致。

表3 不同變量篩選方法RF建模精度Tab.3 Accuracies of RF modeling with different variable selection methods

圖6 sCARS-RF模型預測值和實測值散點圖Fig.6 Scatter diagram of predicted and measured values for the sCARS-RF model

4 討論

PLRS模型中,sCARS算法模型精度高于CARS、IRIV、GA、SPA和全波段;RF模型中,基于5種變量選擇算法模型精度與全波段模型精度相差不大,但其構建模型的變量數卻顯著減少,大大提高了建模效率。對原始光譜進行特征變量篩選,在保證模型精度的同時大大降低了模型的復雜度。基于CARS、GA和SPA算法挑選的特征變量建模,雖能簡化模型,但變量選擇的穩定性較差,挑選的特征變量不總是能反映屬性信息。IRIV算法雖能較穩妥地保留有效波長,但其缺點是計算量較大,因此應用受到限制。sCARS算法以變量的穩定性作為衡量指標,變量選擇分“粗選”和“精選”兩個階段,既提高了變量選擇效率,又增加了變量選擇的穩定性和準確性。但需注意的是,RF模型的精度并沒有像PLSR模型通過應用sCARS算法挑選特征變量而大大增加,且sCARS-PLSR模型精度仍然不如全譜RF模型,這可能是由于RF模型在Vis-NIR光譜數據分析中考慮到大量非線性關系,在PLSR模型與變量選擇方法的任何組合中都沒有觀察到這個特征,這一結果也支持了上述的討論,對土壤有機質含量的Vis-NIR光譜分析應該采用非線性校準方法以獲得最佳預測效果。sCARS算法挑選的特征變量包含了土壤有機質含量最有效的信息,可以代替RF模型的全部原始光譜。

5 結論

以青海省湟水流域401個土壤樣本的有機質含量為研究對象,應用sCARS、CARS、IRIV、SPA和GA算法從全波段光譜數據中篩選特征變量,分別建立基于特征波段和全波段的PLSR和RF預測模型,取得了較好的預測效果。主要研究結論如下:

(2)RF模型的預測效果優于PLSR模型。與采用全波段建模相比,使用特征變量建立PLSR模型,模型精度均有提高;采用特征變量構建RF模型對模型預測精度提高幫助不明顯,但其構建模型的變量數卻顯著減少,大大提高了建模效率。對全波段進行特征變量篩選,在保證模型精度的同時大大降低了模型的復雜度。

(3)sCARS算法以變量穩定性作為變量選擇衡量指標,有效克服了CARS、IRIV、SPA和GA算法的不足,既增強了變量選擇的穩定性和準確性,又提高了變量選擇效率,與RF模型結合可實現土壤有機質含量快速、無損、精準估測。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产美女自慰在线观看| 国产全黄a一级毛片| 一级毛片免费高清视频| 天堂va亚洲va欧美va国产| 亚洲女同欧美在线| 色综合天天综合| 亚洲国产天堂在线观看| 国产精品30p| 免费国产小视频在线观看| 国产粉嫩粉嫩的18在线播放91| 久久久久亚洲av成人网人人软件| 国产丰满大乳无码免费播放| 亚洲天堂区| 熟妇无码人妻| 午夜日b视频| 欧美翘臀一区二区三区| 亚洲天堂区| 黄色网址手机国内免费在线观看| 男女猛烈无遮挡午夜视频| 91精品福利自产拍在线观看| 丝袜久久剧情精品国产| 国产麻豆另类AV| 亚洲人成色77777在线观看| 久久综合九色综合97网| 亚洲色成人www在线观看| 精品91视频| 国内精品手机在线观看视频| 亚洲一区毛片| 欧美综合在线观看| 制服丝袜 91视频| 久热这里只有精品6| 鲁鲁鲁爽爽爽在线视频观看 | 亚洲天堂啪啪| 婷婷色狠狠干| 亚洲欧美日韩视频一区| 国产网站一区二区三区| 午夜日韩久久影院| 欧美精品在线免费| 福利国产微拍广场一区视频在线| 一本大道香蕉高清久久| 女人爽到高潮免费视频大全| 欧美黑人欧美精品刺激| 国产swag在线观看| 国产激情无码一区二区APP| 中文字幕不卡免费高清视频| 亚洲成人在线网| 91久久精品国产| 国产免费怡红院视频| 国内精自视频品线一二区| 国内自拍久第一页| 国产精品极品美女自在线看免费一区二区| 精品91在线| 国产高潮流白浆视频| 亚洲成人黄色在线| 久久九九热视频| 四虎国产永久在线观看| 久久国产精品麻豆系列| 国产一区二区精品福利| 欧美色香蕉| 伊伊人成亚洲综合人网7777| 精品久久综合1区2区3区激情| 国产精品开放后亚洲| 夜夜拍夜夜爽| 在线中文字幕网| 亚洲天堂.com| 国产精品漂亮美女在线观看| 在线国产你懂的| 40岁成熟女人牲交片免费| 女人18毛片久久| 国内精品视频| 亚洲一区二区三区香蕉| 色综合中文| 色婷婷综合在线| 国产肉感大码AV无码| 国产国产人成免费视频77777| 国产v精品成人免费视频71pao| 国产一区二区三区夜色 | 国产精品福利尤物youwu| 成年人国产视频| 国产丝袜无码一区二区视频| 色老二精品视频在线观看| 亚洲国产精品一区二区第一页免|