999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隨機森林結合直接正交信號校正的模型傳遞方法

2020-09-23 12:29:10王其濱楊輝華潘細朋李靈巧
激光與紅外 2020年9期
關鍵詞:差異方法模型

王其濱,楊輝華,,潘細朋,李靈巧,

(1.桂林電子科技大學電子工程與自動化學院,廣西 桂林 541004;2.北京郵電大學自動化學院,北京 100876)

1 引 言

近紅外光譜分析技術能夠實現快速、無損、在線分析樣本,在化工,食品,農業,藥品等多個領域得到了迅速的發展[1-4]。模型傳遞技術是近紅外光譜分析中一種常用的方法,用于解決儀器間因不同的時間,環境或者機械加工誤差,而導致模型通用性較差的問題[5]。在實際的應用中,一臺光譜儀上建立的校正模型,如果直接用于另一臺光譜儀進行樣本的分析會產生較大的偏差,無法得到理想的預測結果。盡管相同型號的儀器實現模型的共享最終必須要依靠硬件的提高,但模型傳遞方法依然有必要進一步研究下去[6]。目前,模型傳遞技術主要分為有標樣和無標樣兩種方法,在實際中使用最為廣泛的是有標樣的直接校正算法(DS)、分段直接校正算法(PDS)以及Shenk′s算法等。這些方法能夠實現模型傳遞的效果,但在進行模型傳遞的過程中,并沒有考慮待測量的特征,無法在去除光譜中存在的背景噪聲的同時,很好的保留與待測變量有關的光譜信息。對此,多項研究將正交信號校正方法引入光譜的處理中,王安冬等人[7],提出用正交信號回歸法對不同批次中藥材光譜進行模型傳遞研究。賈一飛等人[8],提出直接正交信號校正方法結合SBC算法,用于近紅外定量模型批次間的傳遞并取得了不錯的效果。劉賢等人[9],提出將正交信號校正用于秸稈青貯飼料粗蛋白近紅外分析模型傳遞中,較好的實現了模型傳遞的效果。

直接正交信號校正(Direct Orthogonal Signal Correction,DOSC)方法已經被證明能夠大幅提高近紅外光譜模型的預測能力和穩健性,是一種被廣泛采用的預處理方法[10]。但在實驗過程中發現,光譜數據中的噪音并不絕對正交于光譜的濃度陣,因此DOSC方法只能除去它們在與濃度陣正交方向上的投影,噪音殘留的部分便會影響模型的穩定性,并可能造成過擬合。針對DOSC的這個缺陷,本文提出了一種改進的方法,即RF-DOSC模型傳遞方法。該方法在應用DOSC處理數據之前,首先采用隨機森林波長選擇方法預先除去那些噪音含量豐富的區域,盡可能的去除噪音殘留部分的干擾。

2 RF-DOSC算法

RF-DOSC模型傳遞方法,首先將光譜運用隨機森林算法進行波長篩選,用于去除光譜中含有豐富噪聲的區域,之后利用DOSC方法對優選后的光譜進行校正,減小不同批次樣本的光譜背景差異,最后在構建一元線性回歸模型,求得傳遞矩陣。通過在近紅外玉米光譜數據集之間進行傳遞模型實驗,實驗結果相較于傳統方法光譜差異和預測標準偏差都有所降低。

2.1 變量篩選

RF-DOSC模型傳遞方法,采用隨機森林算法進行近紅外光譜波長篩選。隨機森林最早是由Breiman提出的一種集成學習方法[11],它以決策樹為基學習器,在訓練過程中加入了隨機屬性選擇。隨機森林算法利用Bootstrap重采樣建立訓練集,根據包外數據誤差OOB(out-of-bag)對特征變量重要程度進行衡量,將各個變量重要程度進行降序排列,通過剔除相對不重要的變量,從而實現變量的篩選。

對于每一個隨機森林中的決策樹,使用其相應的OOB(包外數據)數據來計算它的包外數據誤差,記為errOOB1。隨機地對包外數據OOB中所有樣本的特征X加入噪聲干擾,并再次計算它的包外數據誤差,記為errOOB2。假設隨機森林中有Ntree棵決策樹,那么對于特征X的重要性MX便可以根據公式(1)計算得到。

(1)

隨機森林特征選擇的步驟為:

(1)對隨機森林中的特征變量的重要程度進行衡量,并進行降序排列。

(2)確定刪除數目,從當前的特征變量中剔除相應數目不重要的變量,得到一個新的特征集。

(3)用新的特征集建立隨機森林,重復以上步驟,直到剩下N個特征變量。

2.2 直接正交信號校正算法

RF-DOSC模型傳遞方法在波長優選后,采用DOSC方法對光譜進行校正處理。DOSC算法是在正交信號校正算法的基礎上提出的一種改進算法[12],該方法將光譜矩陣X與濃度矩陣Y正交,之后將光譜陣X中與Y無關的信號去除,保留與濃度陣Y相關的光譜信息,從而能夠實現在去除光譜噪聲的同時,保留光譜中與目標值有關的有用信息。該方法的實現過程如下。

3)通過將ZZ′進行奇異值分解,求得Z的得分矩陣T。

4)回歸計算權重矩陣W=X-1T,計算新的得分矩陣T=XW,載荷矩陣P=X′T(T′T)-1。

5)去除X中與Y正交的噪聲,XDOSC=X-TP′(XDOSC為正交信號校正后X矩陣)。

從上述方法步驟可以看出,DOSC算法是將光譜陣X投影到一個由標樣集光譜X和濃度Y確立的空間中,光譜X在此空間中只保留了與濃度陣Y相關的部分,與濃度陣Y無關的部分被去除,因此該方法能夠有效的消除光譜中與目標值Y無關的背景噪聲。通常運用DOSC方法進行預處理后的光譜,在進行回歸建模分析可以取得比不經過預處理建模更好的預測結果。

2.3 校正模型建立

RF-DOSCR模型傳遞方法在經過直接正交信號校正處理后,采用一元線性回歸建立模型傳遞的校正模型[13]。設主儀器上測得光譜矩陣表示為Xm,從儀器上測得光譜矩陣表示為Xs,則光譜數據第i個樣品在第j個波長點上的吸光度可表示為Xm(i,j)和Xs(i,j),其應滿足如下一元線性回歸方程:

(2)

式(2)中,第j(j∈1,…,p)個波長點對應的回歸系數分別為b0(j)和b(j)。由式(2)可得:

(3)

其中,[1n×1Xs(:,j)]+表示[1n×1Xs(:,j)]的廣義逆矩陣。

(4)

式中,回歸系數b0(j)和b(j)可以通過公式(3)求出。從儀器上測得的未知樣品光譜X′(n′×p)(其中n′為未知樣品數),通過公式(4)可以轉換為與主儀器上測得的一致的光譜Xstd,傳遞后的從儀器的光譜數據便可以使用主機建立的校正模型進行樣品的分析。

3 實 驗

3.1 實驗數據

實驗采用玉米數據集驗證了RF-DOSC模型傳遞方法的有效性。數據是由Eigenvector Research公司提供的玉米數據集(http://www.eigenvector.com/data/Corn/index.html),數據集包含3臺儀器上80組玉米的光譜數據,數據的波長范圍為1100~2498 nm,樣本維度為700,波長間隔為2 nm,提供了包括玉米的水分、油分、蛋白質和淀粉四種性質參數。

3.2 數據處理

光譜處理過程主要分為兩個階段,分別是利用隨機森林進行光譜變量的優選和通過DOSC對光譜進行校正處理。波長優選階段,將光譜信息重疊、冗余,含有大量背景噪聲等光譜區間作為主要的關注對象,采用隨機森林算法將變量的重要程度進行排序,通過剔除相對不重要的變量,實現變量的篩選。實驗過程中,采用交叉驗證均方根誤差(RMSECV)作為模型的評價指標,通過選擇不同的波長數進行實驗,將誤差最小時對應的波長數設為最佳波長數。光譜校正處理階段,采用DOSC方法,將光譜正交分解后,進一步去除與待測量無關的光譜信息,能夠很好的校正光譜中因溫度,時間,儀器等因素的變動帶來的光譜背景差異。對比試驗采用SG卷積平滑預處理方法對光譜數據進行處理,用于消除光譜的噪聲,提高樣本的信噪比。

3.3 建立定量模型及評價指標

實驗過程通過K-S算法對玉米數據集進行標樣集的選取,該方法通過計算光譜之間的歐氏距離,能夠選取光譜中最具代表性的樣本子集作為標樣集。實驗將數據集按照成分進行降序排列,然后通過改變不同的目標值,就能夠對不同的成分進行預測。玉米數據集一共80個樣本,在主儀器光譜數據集上選取50個測試集,30個校正集,采用10折交叉驗證,利用預測標準偏差(SEP)作為評價指標得到最優的PLS模型主因子數,建立主儀器的定量分析模型。實驗采用光譜平均差異(ARMS)、預測標準偏差(SEP)和光譜校正率(Prcorrected)作為RF-DOSC模型傳遞方法的評價指標。其中ARMS越小,說明兩個不同的主從光譜儀測得的光譜差異越小,SEP越小,表明所建模型的預測能力越強,Prcorrected值的大小,代表模型傳遞方法的傳遞效果好壞。ARMS和SEP計算公式如下式(5)和(6):

(5)

(6)

(7)

式中,ARMSuncorrected代表模型傳遞前為校正的平均光譜差異;ARMScorrected代表模型傳遞后校正過的平均光譜差異。

4 結果與討論

4.1 波長變量數篩選結果分析

近紅外光譜往往變量數很大,維數較高,且光譜信息重疊、冗余,光譜中含有大量背景噪聲等問題。通過對光譜數據進行波長選擇,可以去除冗余數據和背景噪聲,降低數據維度,簡化算法的復雜度。實驗采用玉米水分成分含量為例,通過隨機森林算法進行波長篩選,然后進行PLS回歸建模預測。實驗采用交叉驗證均方根誤差(RMSECV)作為模型的評價指標。如圖1所示,波長數的變化對RMSECV有很大的影響,整體的變化呈先降低后升高的趨勢。RMSECV的值越小,說明模型的預測能力越強。在波長數為70周圍時,RMSECV的值最小,之后隨著波長數的增加,RMSECV的值又逐漸變大,這有可能是加入了一些與模型預測不太相關甚至無關的變量。所以,本文的實驗,波長篩選的數目設定為70,以獲取一個最優的樣本集,從而達到最好的預測效果。

圖1 玉米水分成分RMSECV隨波長變量數的變化情況

4.2 數據校正處理結果分析

在波長優選后,采用直接正交信號校正算法進行光譜的處理,通過正交的數學方法將與濃度陣無關的光譜信號濾除。設從儀器1表示為S1,從儀器2表示為S2。為了能夠直觀的觀察直接信號校正算法的校正效果,實驗在全光譜上進行光譜的校正處理,實驗結果如圖2(a)、(b)所示。

圖2 處理前后S1玉米樣本光譜對比圖

其中,圖2(a)為S1原始光譜與平均光譜的差值光譜圖,圖2(b)為S1直接正交信號校正處理后與平均光譜的差值光譜圖。通過將玉米樣本處理前(a)后(b)的S1差值光譜圖進行對比,可以發現在光譜的處理過程中,光譜的整體形狀并沒有發生很大的差別,但校正處理后,光譜曲線變的更為光滑,且光譜的排列也比校正前更整齊緊密,也說明直接正交信號校正處理后去除了光譜中的噪聲,同時也保留了原光譜中的主要信息。

4.3 模型傳遞前后平均光譜差異對比

使用RF-DOSC模型傳遞方法,建立玉米樣本近紅外光譜校正模型。分別計算對比兩個從儀器玉米樣本傳遞前后的平均光譜差異,可以得出RF-DOSC模型傳遞方法的效果。表1記錄了RF-DOSC算法模型傳遞前后S1和S2間的光譜差異以及光譜校正率。以S1玉米的水分成分為例,校正前光譜與主儀器光譜平均差異為0.2096,校正后光譜的平均差異為0.0568,通過校正率計算公式(8)計算可得其光譜校正率為92.66 %,可見RF-DOSC模型傳遞方法可以很好的消除主儀器光譜和從儀器光譜之間的差異。

表1 測試集經RF-DOSC算法傳遞前后主從儀器間的光譜差異

將RF-DOSC算法與DS、PDS和DOSC三種算法模型傳遞后以及未校正的光譜平均差異進行對比,如表2所示。從表2數據我們可以看出,四種模型傳遞的算法均能有效的減小光譜的平均差異,其中RF-DOSC模型傳遞方法的光譜差異最小,也說明本文的提出的方法在四種方法中,效果最優。DOSC方法效果相較于DS、PDS模型傳遞方法整體表現更優,但在S1、S2儀器玉米水分成分的光譜差異不如其他方法,也說明DOSC方法在實際的實驗過程中,表現不穩定,容易出現過擬合的現象。從DS、PDS方法與DOSC和RF-DOSC方法的光譜差異對比可以發現,DOSC和RF-DOSC模型傳遞方法在校正的過程中,受到了目標值變化的影響,而另外兩種方法,則與目標值Y無關,四種成分的光譜差異均相同。

表2 DS、PDS、DOSC和RF-DOSC傳遞后測試集主從儀器間的光譜差異(ARMS)

4.4 模型傳遞前后預測結果對比

為驗證RF-DOSC模型傳遞方法在預測精度,穩健性方面的表現,實驗使用主光譜儀測得的光譜數據集進行PLS回歸建模分析。通過將模型傳遞前后的光譜數據代入回歸模型中進行分析對比,采用預測標準偏差作為評價指標,可以得出模型傳遞方法的傳遞效果。通過與DS、PDS、DOSC方法的對比,可以發現RF-DOSC模型傳遞方法表現最優,預測標準偏差最小。結果如表3所示。

表3 DS、PDS、DOSC和RF-DOSC傳遞后測試集預測標準偏差(SEP)

實驗結果顯示,在光譜模型傳遞前,未校正的從儀器光譜直接帶入主儀器光譜數據建立的PLS回歸模型進行預測分析,會產生較大的誤差。在經過模型傳遞之后,校正后的從儀器光譜數據預測標準偏差均有減小,其中RF-DOSC算法整體預測標準偏差最小,此時所建模型預測能力和穩健性最好。PDS整體結果表現優于DS、DOSC方法,DOSC方法在某些成分預測上,優于DS、PDS,這可能是因為光譜殘留的噪聲,通過DOSC正交分析后影響了模型的穩定性。實驗結果也說明,通過隨機森林算法預先進行波長篩選,去除含有大量噪聲的光譜區間是有必要的。實驗結果表明RF-DOSC算法在經過波長篩選后,采用直接正交信號校正算法消除光譜背景噪聲,在建立校正回歸模型,可以較好地實現近紅外光譜模型的傳遞。

5 結 論

針對近紅外光譜模型通用性較差的問題,提出了一種基于隨機森林結合直接正交信號校正的模型傳遞方法。該方法首先使用隨機森林算法實現光譜波長點的篩選,然后利用直接正交信號算法進行光譜校正,最后采用回歸分析求得模型傳遞矩陣。該方法首先采用隨機森算法進行波長的篩選,有效地去除了光譜中含有大量噪聲的區間,避免了直接正交信號校正算法可能會造成過擬合的弊端。在一臺主儀器,兩臺從儀器上測的玉米光譜數據集進行實驗驗證,表明該方法能夠消除不同儀器間光譜的平均差異,提高模型的預測能力和穩健性。在與其他傳統模型傳遞方法DS,PDS和DOSC算法對比之后,得出結論基于隨機森林結合直接正交信號的模型傳遞方法能夠較好地完成近紅外光譜的模型傳遞,實現不同儀器間模型的共享。

猜你喜歡
差異方法模型
一半模型
相似與差異
音樂探索(2022年2期)2022-05-30 21:01:37
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
找句子差異
生物為什么會有差異?
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲看片网| 在线观看亚洲天堂| 精品免费在线视频| 欧美国产精品拍自| 999国产精品| 麻豆国产精品视频| 日本AⅤ精品一区二区三区日| 亚洲国产欧美中日韩成人综合视频| 国产精品视频导航| 欧美激情网址| 国产91麻豆视频| 永久免费精品视频| 午夜高清国产拍精品| 欧类av怡春院| 免费AV在线播放观看18禁强制| 亚洲码在线中文在线观看| 国产成人精品一区二区三区| 亚洲熟妇AV日韩熟妇在线| 青青草原偷拍视频| 91无码视频在线观看| 成人伊人色一区二区三区| 亚洲一级色| 激情综合激情| 亚洲精品片911| 毛片三级在线观看| 国产精品久久久久久久久久久久| 午夜视频www| 91亚洲国产视频| 欧美一道本| 亚洲欧美日本国产综合在线| 综合色天天| 久久精品欧美一区二区| 亚洲色欲色欲www网| 国产剧情一区二区| 97一区二区在线播放| 一级毛片基地| 国产亚洲精品91| 国产成人精品日本亚洲| 九色视频线上播放| 日本手机在线视频| 亚洲第一成年免费网站| 在线亚洲天堂| 亚洲成人精品| 91亚洲免费视频| a亚洲天堂| 国产九九精品视频| 精品国产黑色丝袜高跟鞋| 熟妇无码人妻| 国产成人精彩在线视频50| 欧美午夜视频在线| 日本高清视频在线www色| 午夜福利免费视频| 在线观看亚洲成人| 国产内射一区亚洲| 欧美区一区| 久久久久免费精品国产| 四虎亚洲精品| 国产裸舞福利在线视频合集| 一区二区三区四区精品视频| 精品无码一区二区在线观看| 在线欧美日韩| 亚洲中文精品人人永久免费| 亚洲青涩在线| 在线中文字幕日韩| 国产成人在线小视频| 欧美精品一区二区三区中文字幕| 大香网伊人久久综合网2020| 国产日本欧美亚洲精品视| 91福利在线观看视频| 亚洲国产精品无码AV| 精品少妇人妻一区二区| 亚洲第一中文字幕| 国产免费网址| 国产区福利小视频在线观看尤物| 国产男人的天堂| 看国产毛片| 久久久波多野结衣av一区二区| 伊人蕉久影院| 国产永久无码观看在线| 强奷白丝美女在线观看| 人妻丰满熟妇αv无码| 欧美天堂在线|