999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種葉片光譜信號的多層次特征提取方法

2016-05-11 00:42:52MultilevelFeatureExtractionStrategyforLeafSpectralSignal
自動化儀表 2016年3期
關鍵詞:特征模型

A Multilevel Feature Extraction Strategy for Leaf Spectral Signal

李 響1 呂 勇1張倩暄2(北京信息科技大學儀器科學與光電工程學院1,北京 100192;北京雪迪龍科技股份有限公司2,北京 102206)

?

一種葉片光譜信號的多層次特征提取方法

北京市自然科學基金資助項目(編號:4154071);

北京市組織優秀人才基金資助項目(編號:2014000020124G105)。

修改稿收到日期:2015-01-06。

第一作者李響(1982-),男,2012年畢業于北京航空航天大學光學工程專業,獲博士學位,講師;主要從事光電檢測方向的研究。

0 引言

葉片作為植物機體最重要的組成部分,不僅是光合作用的主要場所,而且在果實成熟過程中充當了重要的角色[1-2]。植物葉片生化參數(葉綠素和水分)無損檢測在精細農、林業等領域具有重要的意義。光譜檢測技術以其快速、無損、實時等優點在各個研究領域發揮著重要的作用。

植物葉片在可見/近紅外波段(400~1 100 nm)的吸收特征沒有近紅外波段復雜,尤其是在可見區域,主要受到色素即葉綠素吸收的影響。雖然葉綠素吸收峰相對比較明確,但對于活體檢測時,物質的吸收之間存在相關干擾,再加上散射等物理因素的影響,會使這些特征峰發生漂移或重疊。另外,隨著季節的變更,植物生長期以及健康狀態的改變,其自身機體的保護機制也會使色素的特征吸收波長發生藍移或者紅移[3]。因此針對不同目的的校正模型(數據自身特點和物質結構特點),需要選擇不同的建模波長,從而說明波長選擇算法對于葉綠素含量的檢測具有重要的意義。

本文對葉片生化參數檢測模型的簡潔性和穩健性進行探討,提出了一種多層次特征信息提取算法。

1 多層次特征信息提取方法

對于多變量校正方法,為不丟失光譜信息,可用全部光譜數據建模,但這樣不僅計算量大,校正模型的預測精度也未必能達到最佳值。波長優選的目的是從光譜中提取最有效的譜圖特征信息,建立最佳的校正模型,簡化運算,并降低模型維護的復雜性。因此選擇包含最佳信息的特征波長是建立多變量校正模型的關鍵[4]。

本文所述多層次特征信息提取方法,在進行特征信息提取時,首先應用后向間隔偏最小二乘法進行特征波段選擇,先選擇有用信息波段,實現無用信息的剔除。然后再在有用信息里消去信息的共線性。

1.1特征信息提取理論依據

傳統的校正模型可以表達為:

式中: C為樣本的濃度信息矩陣; R為光譜響應變量矩陣; B為估計的回歸系數矩陣; E為誤差矩陣。為了不失一般性,R和C均為歸一化的矩陣(即零均值標準方差)。

光譜測量的基本原理是通過式(1)估計回歸系數B,然后可對未知樣本進行預測,得到濃度C的信息。

相關研究證明[5],回歸系數B的無偏估計為:

假設誤差服從獨立同分布,模型的預測均方根誤差mesp可表達為:

由式(2)和式(3)可知,增加光譜數據的變量個數可提高模型的預測誤差。但實際過程中,這個是不可能實現的,還需要考慮到光譜R和濃度C的誤差。

假設光譜與濃度的誤差獨立同分布,考慮R和C的誤差,將式(3)表達為一階形式:

式中: bi和ri分別為B和R的第i個元素。

若光譜模型中包括J個波長變量,式(4)可記為:

將式(4)與式(5)聯立,得到msep的變化量:

假設原來的回歸系數的估計誤差受后添加的變量的影響不大,因此式(6)近似為:

從式(7)可看到,增加的波長變量有兩方面特點。一方面,第一項一定為負,這是因為對增加的波長變量進行擬合,變量個數多的原始波長處的回歸系數的平方和一定小于沒有增加之前的;另一方面,可類似求得后面兩項必定為正。因此,當增加了變量處的光譜數據誤差較大或者增加的變量處的回歸系數的誤差較大時,mesp會隨著變量的增加而增加。

選擇具有較大SNR的波長以及對回歸系數估計誤差小的變量(不確定度小),可提高模型的精度。波長變量的不確定度大是指波長處包含著一些不能夠用目前的校正集樣本校正的因素。這些因素可能受測量中的各種非線性影響,如實驗條件、儀器漂移物理屬性導致的漂移或較大的隨機誤差等。波長處大的不確定度是指波長的增加會明顯增加模型的復雜度,說明該波長包含了與目標濃度無關的信息,需要更多的主成分來提取信息。

1.2特征波段的選擇

間隔偏最小二乘(interval partial least squares,iPLS)由N?rgaard等人[6]提出,其克服了與化合物無關的因素,使得校正模型穩定,依賴模型精度最小化選擇最佳波長間隔組合,能夠有效地消除無用信息。其主要原理為:將整個光譜范圍分割成為許多小的等間距區間,然后在每個區間構建PLS模型,通過驗證計算各子區間的預測均方根誤差(root mean square error of cross validation,RMSECV)。當RMSECV最小時,對應的因子為該區間的最佳因子,因此可建立局部最優PLS模型。

iPLS的主要目的是優化PLS模型的預測能力,并提高模型的解釋能力。

間隔偏最小二乘可有效地將物質的特征波段選擇出來,消除那些無用波段,減少不確定度大的波長,從而提高模型的精度。但同時會導致另一個問題的出現,當物質的特征波段不止一個時,如水分,其理論吸收峰在760 nm和970 nm附近,為提高模型的精度,這兩個特征波段應該均被選入。因此需要對間隔偏最小二乘選擇好的波段進行組合,組合的方式有很多種,如前向逐步選擇、后向逐步選擇、基于GA算法的選擇等。雖然方法不同,但結果是類似的,這里采用后向逐步選擇法(backward interval partial least squares,BiPLS)。后向選擇的方式,逐漸減少建模的區間間隔數,直到RMSECV減少后又開始增加。這時的間隔組合即為最佳區間組合,其原理如圖1所示。

圖1 BiPLS實現流程圖Fig.1 Flowchart of BiPLS realization

1.3特征波長的提取

在選取了有用信息波段之后,再選擇特征波長來消除波長變量之間的共線性。連續投影算法(successive projection algorithm,SPA)是Araújo M C U等人[7]于2001年提出的一種變量選擇方法,它可最大程度地消除變量之間的共線性,以有效地進行特征波長的選擇。由于該方法對噪聲的敏感性較大,因此一些微弱吸收的波長會被忽略掉。本文將其應用在不確定度小的波段范圍內進行選擇,克服了該缺點。

連續投影算法是一種向前選擇變量方法,開始時選擇一個變量,然后通過投影算法,每迭代一次增加一個新變量,直到選定最佳的N個變量為止。SPA的目的是選擇具有最少冗余信息的變量,解決變量間的共線性問題。SPA選擇變量的過程基本原理是,在未選出的剩余變量集中,找到一個新變量,且該變量在上一個已選出變量的正交子空間中具有最大投影值。需要注意的是,進行初始設置時,開始變量Xstart及選擇變量個數N的選擇很關鍵。N在校正集樣品數之間變化,通??蓪γ恳粚?Xstart,N)參數進行多元回歸分析,具有最小的預測均方根誤差的(Xstart,N)參數就是初始設置的最優值。其算法為:

①令start =1~p;

②Xsel(0)= Xstart;

③令N =1~(n-1);

④令Xsel(0)為Xcal的初始列向量;

⑤令n =1~N;

⑥令Xnot為未選擇的變量,即Xnot= { j,1≤j≤p并且j{ Xsel(n),…,Xsel(N)} } ;

⑦計算Xj在Xsel(n-1)的正交子空間上的投影,即:

式中: P為投影算子。

⑧令sel(n)= arg(max‖PXj‖),j∈Xnot;

⑨令Xj= PXj,j∈Xnot;

⑩n = n +1,返回⑥直到n = N;

?選擇的變量集合為{Xsel(n); n =0,…,N-1};

?用選擇的變量建立PLS模型,對于每對(Xstart,N),計算驗證集預測均方根誤差(root mean square error of prediction,RMSEP),即:

式中: ym和^ym分別為第m個驗證集樣本的參考值和預測值; M為驗證集樣本個數。

?start = start + 1,返回②直到start = p,迭代結束;

?根據最小RMSEP (Xstart,N)值選擇最優的變量子集。

將前述優選的特征波段數據采用SPA投影算法消除變量的非線性因素,得到最終的特征變量用以建立校正模型,可有效地選擇反映目標參數的特征信息,同時還可有效地提高模型的精度。

2 葉片光譜特征信息提取實驗

將本文提出的多層次特征信息提取算法應用于植物葉片光譜數,并與目前主流波長選擇算法進行比較,研究本算法的有效性。

2.1實驗部分

采集6片綠色水平不同的綠蘿葉片,所選樣本均是健康的、顏色均勻、無花青素或明顯損傷的葉子。分別采集每個樣本在6個不同位置上的光譜,共測得36條光譜,原始光譜如圖2所示。所獲36個樣本的葉綠素含量范圍為8.79~38.4 mg/kg,均值為22.7 mg/kg,標準差為12.8 mg/kg。

圖2 葉綠素數據的原始光譜圖Fig.2 The original spectrum of chlorophyll data

儀器采用海洋光學的USB4000便攜式光譜儀,用直徑為400 μm的反射光纖和PRH-1光纖支架,以及陶瓷標準反射板,儀器的有效波長范圍為450~1 050 nm波段,共計3 149個波長。

2.2數據預處理

在對數據建模之前,采用小波分析的方法對其進行去噪,并采用OPLEC方法校正。由于樣本位置差異引起的光譜差異,校正后的光譜圖如圖3所示。

圖3 OPLEC校正后的光譜圖Fig.3 Spectrogram after OPLEC correction

2.3實驗結果分析

將各種波長選擇算法和本文提出的多層次特征信息提取算法分別應用在葉綠素含量模型中,從模型的精度、復雜度以及變量的可解釋性3個方面進行分析。

波段選擇前后葉綠素含量模型的精度對比和各種波長選擇算法在葉綠素數據的應用曲線分別如表1、圖4所示。

表1 波段選擇前后葉綠素含量模型的精度對比Tab.1 Precision comparison of Chlorophyll content model before and after the waveband selection

圖4 各種波長選擇算法在葉綠素數據的應用曲線Fig.4 The application curves of various wavelength selection algorithms in Chlorophyll data

從表1中可看到,基于物理意義選擇波長的算法(除了SIMPLISMA)選出的波長數目都很多,大約是原始光譜的三分之一。從圖4中可發現,VIP類算法即圖4(a)和4(b)中被選出的波長集中在幾個波段內,450~500 nm、520~570 nm、620~800 nm,以及1 010~1 050 nm范圍內,葉綠素兩個特征峰(450 nm、670 nm)被選出。UVE類算法即圖4(c)和圖4(d)不同于VIP類算法的波段是720~890 nm和960~1 010 nm,除了前面葉綠素的吸收峰和反射峰之外,UVE選出的波段主要集中在短波近紅外區域(760~1 100 nm),在精度方面,VIP類算法對模型精度的提高是有效的,尤其是Bootstrap-VIP,RMSECV從2.29降低為2.07,RMSEP 從3.13降低到3.01,分別降低了9.6%和3.8%。但UVE類算法的效果卻不理想,減少了建模的復雜度,同時也丟失了一部分信息,使得PLS模型的主成分個數也降為4。UVE類算法考察的是波長回歸系數的穩定性,因此一些不是目標因素引起的變異較大的波長可能被選出,反而不利于模型精度的提高。

圖4(e)所示SIMPLISMA算法,雖然大大地降低了光譜的復雜性,但精度沒有提高,這是所列幾種方法中模型精度最差的一種?;貧w點位移(regression point displacement,RPD)只有1.99,表明該模型是不可預測的。SIMPLISMA算法考察的是光譜自身的差異,與被測參數自身無關,將波長按所包含的變異信息從大到小依次排列。因此,其對光譜的質量要求很高,當光譜質量不高時,就無法選出真正與目標濃度相對應的波長。

圖4(f)是采用本文提出的BiPLS-SPA混合波長選擇算法選出的10個波長,分別是483.84 nm、512.4 nm、513.24 nm、513.86 nm、555.21 nm、581.7 nm、694.65 nm、706.83 nm、910.92 nm、913.76 nm。這些波長涵蓋了葉綠素a的吸收峰(690 nm,700 nm)和葉綠素b的吸收峰(480 nm)。其余的波長是葉綠素a和b吸收都很小的波長,如圖5所示。

圖5 葉綠素a和葉綠素b的吸收光譜圖Fig.5 The absorption spectrums of chlorophyll a and chlorophyll b

圖5說明BiPLS-SPA選出的波長具有明確的物理意義,可解釋性強,對選出的波長建立PLS模型。由表1可知,與原始PLS模型相比,新建模型不僅提高了模型精度,RMSECV降低了26.3%,而且增強了模型的預測能力,RMSEP降低了24.0%。

2.4實驗結論

對于本組數據,VIP和UVE兩種方法是較有效的波長選擇方法,但前者是選擇有效的,后者是消除無用的,因此從效果上來看,二者不僅減少了波長個數,而且還在一定程度上提高了預測精度或者和原始模型的精度維持一致。SIMPLSIMA方法無論是葉綠素數據還是水分數據模型精度都較差,這與光譜質量的噪聲大有關系。研究表明,該算法對噪聲異常敏感,因此在使用之前,應該采用相應的去噪措施。PLS模型自身具有抑制噪聲的作用,因此SIMPLSIMA算法在本文的數據應用中不是最佳的波長選擇算法。Bootstrap-VIP及EMCUVE,多次重復VIP和MCUVE方法,期望在統計上給出某些波長的重要性,但并未取得期望的效果。在參數相同的情況下,兩者期望相同,但前者比后者所需要的波長要多。如進行波段優選,VIP方法要較UVE方法略勝一籌,前者選擇的波長都集中于一些固定的區域,而后者所選的波長在整個波段范圍內散開,但物理原因不明確。這幾種方法的共同特點是確定所需閾值較困難,需要不斷嘗試,給出最佳參數,因此,計算量較大且復雜。

本文所述多層次特征信息提取算法,物理意義明確,不需要參數設置,有效地選出了各生化參數的特征吸收波段,剔除了不相關波段的無用信息或冗余信息。采用連續投影算法消除選出波段內的共線性,最大程度地降低建模的復雜性。

3 結束語

特征信息提取是建立高精度校正模型的一個重要環節,減少模型復雜度的同時也增加模型的穩定性。最佳的波長選擇算法不僅要求改善校正模型的精度,還要求容易解釋,以更加真實地反映物質的相應特性。本文在比較了常用的波長選擇算法的基礎上,提出了一種多層次特征信息提取算法。該方法首先消除與目標濃度無關的無用信息,突出光譜中的微弱信號,然后極大地消除剩余光譜變量之間的冗余信息,降低其共線性。該算法選出的波長具有較強的可解釋性,物理意義明確。與常用的幾種波長選擇算法即VIP、UVE、SIMPLISMA以及由它們衍生的相關算法進行對比,結果表明,多層次特征信息提取算法不僅可有效地提取光譜的特征信息,而且選擇的變量易于解釋,可有效提高建模效率并提高模型精度和穩定性。

參考文獻

[1]譚昌偉,王紀華,黃文江,等.高光譜遙感在植被理化信息提取中的應用動態[J].西北農林科技大學學報:自然科學版,2005,33(5): 151-156.

[2]Gitelson A A,Merzlyak M N.Spectral reflectance changes associate with autumn senescence of Aesculus hippocastanum L.and Acer platanoides L.leaves Spectral features and relation to chlorophyll estimation[J].Journal of Plant Physiology,1994,143(7):286–292.

[3]Gregory A C.Alan K K.Leaf optical properties in higher plants: linkingspectral characteristicstostressandchlorophyll concentration[J].American Journal of Botany,2001,88 (4 ): 677-684.

[4]李麗娜.近紅外光譜微弱信息提取技術研究[D].北京:北京航空航天大學,2011.

[5]王惠文.偏最小二乘回歸方法及其應用[M].北京:國防工業出版社,1999.

[6]N?rgaard L,Saudland A,Wagner J,et al.Interval partial least squares regression (iPLS): a comparative chemometric study with an example from near-infrared spectroscopy[J].Applied Spectroscopy,2000,54(6):413-419.

[7]Araújo M,Saldanha T,Galvao R,et al.The successive projections algorithm for variable selection in spectroscopic multicomponent analysis[J].Chemometrics and Intelligent Laboratory Systems, 2001,57(8):65-73.

A Multilevel Feature Extraction Strategy for Leaf Spectral Signal

李響1呂勇1張倩暄2
(北京信息科技大學儀器科學與光電工程學院1,北京100192;北京雪迪龍科技股份有限公司2,北京102206)

摘要:對葉片生化參數檢測模型的簡潔性和穩健性進行探討,提出了一種多層次特征信息提取算法。在進行特征信息提取時,首先應用后向間隔偏最小二乘法進行特征波段選擇,先選擇有用信息波段,剔除無用信息,然后從有用信息里消去信息的共線性。實驗結果表明,多層次特征信息提取算法不僅可以有效地提取光譜的特征信息,選擇易于解釋的變量,而且提高了檢測精度。

關鍵詞:光譜分析特征提取信號處理生化參數檢測無損檢測最小二乘法

Abstract:The simplicity and robustness of the leaf biochemical parameter detection model are investigated,and a multilevel feature information extraction algorithm is proposed.When the feature information is extracted,the first thing to do is applying the backward interval partial least square method for selecting feature wavebands,the useful information waveband is selected,to implement rejection of the useless information; then the collinearity of the information is eliminated from the useful information.The experimental results indicate that the multilevel feature extraction algorithm can effectively extract the feature information of spectrum,and select the variable that easily to be explained,as well as improve the detection accuracy.

Keywords:Spectrum analysis Feature extraction Signal processing Biochemical parameter detection Nondestructive testing Least square method

中圖分類號:TH-3; TP2

文獻標志碼:A

DOI:10.16086/j.cnki.issn1000-0380.201603008

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 亚洲中文字幕日产无码2021| 四虎成人精品在永久免费| 亚洲女人在线| 91毛片网| 麻豆国产在线观看一区二区 | 欧美亚洲一区二区三区导航| 99久久精品久久久久久婷婷| 欧美日韩国产在线播放| 成人在线天堂| 欧美性天天| 亚洲色图欧美激情| 996免费视频国产在线播放| 伊人中文网| 欧美精品成人一区二区视频一| 毛片网站在线播放| 欧美成在线视频| 国模私拍一区二区| 国产精品永久久久久| 欧美精品H在线播放| 国产草草影院18成年视频| 国产男女XX00免费观看| 日韩国产 在线| 久久久久久国产精品mv| 国产香蕉在线| 精品福利网| 九九热在线视频| 久久77777| 日韩毛片在线播放| 在线播放真实国产乱子伦| 亚洲永久色| 午夜三级在线| a亚洲天堂| 欧美v在线| 四虎国产精品永久一区| 免费看a级毛片| 国产凹凸一区在线观看视频| 欧美激情一区二区三区成人| 国产sm重味一区二区三区| 亚洲精品爱草草视频在线| 一本大道无码高清| 欧美午夜小视频| 国产精品欧美亚洲韩国日本不卡| 国产精品视频公开费视频| 亚洲第一页在线观看| 5555国产在线观看| 91福利在线看| 亚洲第一黄色网址| 久久先锋资源| 男女男免费视频网站国产| 欧美亚洲激情| 99久久精品美女高潮喷水| 五月婷婷丁香综合| 91麻豆精品国产91久久久久| 亚洲男人在线| 亚洲最大综合网| 色国产视频| 久热这里只有精品6| 巨熟乳波霸若妻中文观看免费| 国产91成人| 99久久性生片| 亚洲九九视频| 精品久久高清| 国产对白刺激真实精品91| 国产激情影院| 亚洲AV无码乱码在线观看裸奔| 成人无码一区二区三区视频在线观看 | 亚洲Va中文字幕久久一区| 国产黄色免费看| 国产资源站| 日韩色图在线观看| 国产精品无码在线看| 91色老久久精品偷偷蜜臀| 狠狠色婷婷丁香综合久久韩国| 国产精品久久久久婷婷五月| 国产一级裸网站| 国内精品视频区在线2021| 亚洲一级色| 伊人激情综合网| 在线观看免费国产| 蜜桃臀无码内射一区二区三区| av午夜福利一片免费看| 丝袜无码一区二区三区|