999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

近紅外光譜樣本集劃分以及預處理的方法研究*

2023-04-06 10:41:20陳方方丁躍武李四海
甘肅科技 2023年1期
關鍵詞:方法模型

陳方方,丁躍武,楊 友,李四海

(甘肅中醫(yī)藥大學信息工程學院,甘肅 蘭州 730000)

近紅外光譜技術是介于可見光與中紅外光譜之間的一種電磁波,光譜范圍為780~2 520 nm,主要信息來源于對氫基團的倍頻和合頻的吸收,不同的基團產生的信息不相同,相同的基團在不同的環(huán)境下產生的信息也不相同。因近紅外光譜技術具有操作便捷、效率高、無污染等特點得到廣泛應用[1-3]。

以研究過程中的方法選擇、數據處理為主要研究內容,提取最大限度的化學和分析信息,不僅能夠提高操作中的效率,還可以提高模型的預測精度。異常樣本識別、樣本集劃分、光譜預處理是建立分析模型的基礎,良好的數據處理方法是建立穩(wěn)定性好、預測能力強的分析模型的重要條件。褚小立等[4]、閔順耕等[5]分別對異常樣本識別、預處理等一些化學計量學方法進行總結,然而這些算法已是多年之前的研究,隨著技術的發(fā)展,近些年產生了大量的新算法,文章在此基礎上介紹了近幾年近紅外光譜的異常樣本識別、樣本集劃分、光譜預處理算法原理及應用。

1 近紅外光譜異常樣本識別

近紅外光譜分析的對象通常都是較為復雜的對象,在對數據進行化學分析時,常常由于環(huán)境問題、操作人員的失誤、取樣不均以及樣本的復雜度等問題,導致檢測結果不可靠或異常樣本的出現(xiàn),會對模型精確度產生影響。因此,為建立一個更加穩(wěn)定可靠的模型,在進行定量分析之前需要對樣本的異常值進行識別和剔除。

1.1 常用的異常樣本識別方法

光譜數據中的異常樣本可以通過觀察光譜數據本身進行剔除,但由于會受人為等一些其他因素的干擾,難以實現(xiàn)對光譜數據客觀、準確地分析,選擇適合的方法對樣本進行異常值篩選,能更好地保證模型的穩(wěn)定性。目前,常用的方法主要有Cook距離、馬氏距離、樣本杠桿值、學生化殘差、濃度殘差值、光譜殘差值、蒙特卡洛交叉驗證(Monte-Carlo Cross Validation,MCCV)等[6-9]。

1.1.1 Cook距離

Cook距離主要用來檢驗某樣本的存在對模型回歸系數產生的影響,其距離計算如下:

1.1.2 樣本杠桿值和學生化殘差

在多元回歸模型中,光譜矩陣Xc存在:

H通常被稱為“帽子矩陣”,對角線上的元素Hi表示第i個樣本杠桿值(Leverage)。當杠桿值大于的樣本被認為是異常樣本,p是光譜波數個數,n是樣本個數。樣本杠桿值表示樣本值對模型的影響程度,杠桿值越小代表該樣本有利于模型的建立,但樣本杠桿值大的不一定是異常樣本,需要結合學生化殘差來進行綜合考慮。

學生化殘差考慮了樣本性質矩陣的預測能力,其表達式為:

式中:yi是第i個樣本的真實值是第i個樣本的預測值,si是剔除第i個樣本后擬合回歸的均方根誤差。學生化殘差表示樣本杠桿值對應的樣本濃度預測能力的優(yōu)劣,如果樣若樣本的學生化殘差和杠桿值都很大,判斷該樣本為異常樣本的可能性較大。

1.1.3 馬氏距離

馬氏距離是指樣本光譜集與標準光譜集的平均光譜距離,用來衡量某一個樣本對整個樣本集產生的影響,如果馬氏距離大于閾值,表明該樣本影響模型的穩(wěn)定性,此樣本可能是異常樣本。

馬氏距離的算法步驟如下:

式中:ti是樣本集的主成分得分向量,是標準光譜集的主成分得分的平均值,V-1是標準光譜數據集的協(xié)方差的逆矩陣。

1.1.4 濃度化殘差

濃度殘差法通過計算樣本的化學絕對值誤差的方差與整個數據集各樣本的絕對方差的平均值,用F檢驗來判別,大于閾值可判定為異常樣本。

當Fi>F0.05(1,n-1)可以判斷第i個樣本為異常樣本。光譜化殘差是指計算原始光譜與重構光譜的殘差譜的方差,可用來判斷光譜異常值和特征峰的異常。

1.1.5 蒙特卡洛異常值采樣

MCCV利用蒙特卡洛交叉驗證中奇異樣本的統(tǒng)計規(guī)律來識別奇異樣本,通過MCCV計算出模型中預測殘差平方和(PRESS),再建立定量分析模型,如果樣本在具有小的PRESS的分析模型中的出現(xiàn)次數明顯偏離則表明為奇異樣本。具體過程如下:

(1)對樣本建立PLS模型確定最佳主成分數;

(2)采用蒙特卡洛隨機取樣法選取80%的樣本作為校正集,20%作為驗證集,確定最佳主成分數,對校正集建立PLS回歸模型,用驗證集進行預測,得到驗證集樣本的預測值;

(3)對步驟(2)進行循環(huán),得到預測誤差分布;

(4)計算樣本預測殘差的均值和方差,確定在一定的方差下,具有較大殘差下的樣本數,將這些樣本視為異常樣本。

此外,在對數據進行異常樣本剔除時,可能會存在異常樣本點的誤判,不能實現(xiàn)對樣本數據完全剔除,針對這種現(xiàn)象祝詩平等[10]提出對可疑樣本進行二次驗證,即“二審”剔除法,其基本思想是指在對樣本進行一次異常樣本檢驗時,如果被檢測為可疑樣本,不馬上對其進行剔除,而是繼續(xù)對其進行二次計算,如果仍被判定為異常樣本,就對其進行剔除,否則,進行保留,通過“二審”剔除法,使模型更具有代表性和穩(wěn)定性,進一步提高近紅外光譜模型定量分析的精度。

2 近紅外光譜樣本集劃分

在對樣本數據集進行分析時,選取合適有效的樣本進行化學建模不僅可以提高模型的精準度,還為后續(xù)模型的維護和更新提供更為便捷的方法。目前,常用的樣本集劃分方法有隨機抽樣(Random Sampling,RS)法[11]、常規(guī)選擇(Conventional Selection,CS)法[12]、Kennard-stone(KS)法[13]、X-Y聯(lián)合距離的樣本集劃分(Sample Set Portioning base on joint xy distance,SPXY)[14]等。詹雪艷等[15]比較了三種校正集選擇方法并對積雪草中的積雪草苷的含量建立NIR定量分析模型。陳奕云等[16]以江漢平原洪湖地區(qū)水稻土為研究對象,采用KS法,SPXY法構建樣本數占總校正集不同比例的子校正集,建立定量分析模型。

2.1 常用的樣本集劃分方法

CS法在對樣本進行劃分時,增強樣本中的某些特征如:廠家、產地等一些因素的變異,對樣本的化學含量值進行測量、篩選、按大小進行排序,以校正集和測試集比例選擇化學測量值最高或最低的樣本進行分配。RS法是指對光譜數據集進行隨機挑選,篩選出來的一部分樣本作為校正集,其余的作為測試集。RS方法具有操作簡單,不需要對數據進行挑選、排序、計算等特點,此方法適用于樣本數量比較大的樣本集,當用于樣本集較少的情況下會導致樣本劃分不均勻,影響模型的預測精度。

2.1.1 KS法

在近紅外光譜分析模型分析中,樣本集較少的情況下可選擇KS法,根據計算樣本間光譜的歐式距離來計算樣本間差異。采用KS算法不僅可以起到降低算法計算代價,加快學習速度之作用外,還可以避免過擬合現(xiàn)象發(fā)生。KS算法的具體步驟如下:

(1)將所有的樣本都視為訓練集,計算整個樣本集中的歐式距離,選擇歐式距離最大的2個樣本做為訓練集;

(2)計算剩余樣本與已選樣本之間的距離,最短距離選為訓練集,待所有的剩余樣本計算過后,選擇這些最短距離中的最長距離所對應的樣本選作訓練集;

(3)重復步驟2,直至所選的樣本集樣本個數等于事先確定的數目為止。

歐式距離為歐幾里得度量(Euclidean Metric)指在n維空間中兩點之間的真實距離,或者向量的自然長度。其公式如下:

式中:xp和xq表示2個不同的樣本,N表示樣本的光譜波點數量。

2.1.2 SPXY

SPXY算法是在KS的基礎上發(fā)展而來的,是一種均勻的采樣方法,在計算樣本間距離時綜合考慮了數據變量和化學測量值之間的歐式距離,能夠改善所建模型的預測能力。其計算公式如下:

將光譜數據x和化學測量值y同時考慮在內,p、q之間的距離為dxy(p,q),公式如下:

為確保x和y在每個樣本上具有相同的權重,對數據集中的最大距離值dx(p,q)和dy(p,q)進行歸一化。然后,采用類似于KS算法逐步選擇,直到選擇出需要的數據為止。

3 近紅外光譜預處理方法

近紅外光譜在采集過程中由于光的散射、背景干擾以及儀器誤差等原因,對建立的分析模型產生影響,因此,有必要對已經獲得的光譜信息進行預處理。常用的預處理方法主要分為基線校正、散射校正、平滑處理、尺度縮放[17]四類。其中,基線校正包括一階導數、二階導數、小波變換等,主要是消除儀器背景干擾以及光線漂移對信號產生的影響。尺度縮放包括均值中心化[18]、最大最小歸一化、標準化、矢量歸一化等,主要是通過消除尺度差異過大帶來的影響。散射校正主要包括多元散射校正(Multiplicative Scatter Correction,MSC)[19]、標準正態(tài)變量變換(Standard Normalized Variate,SNV)[20]、正交信號校正(Orthogonal Signal Correction,OSC)[21]、去趨勢算法(Dr-trending)等,主要通過消除由于樣品顆粒不均勻及顆粒大小不同而產生的散射。平滑處理包括移動窗口平滑、Savitzky-Golay(SG)平滑[22]等,主要消除光譜中隨機噪聲產生的影響。

3.1 基線校正

光譜數據采集時會受到由基線漂移以及光譜重疊的影響,進而在數據建模中產生較多的隨機誤差。對光譜數據進行求導可以消除光譜數據集中不重要的基線漂移。一階導數可以用來消除同波長無關漂移;二階導數可以消除同波長線性相關的漂移,同時提高光譜的分辨率,但也會降低光譜的信噪比。此外,對光譜的求導方法包括直接差分法和Savitzky-Golay卷積求導法。當獲得的數據具有高分辨率、波長點數量多的情況下,直接差分法和Savitzky-Golay卷積求導存在誤差較小。

小波變換主要包括離散小波變換(Discrete Wavelet Transform,DWT)和連續(xù)小波變換(Continuous Wavelet Transform,CWT)是一種有效的數值求導方法,不僅可以提高光譜分辨率還可以保證光譜的信噪比。通過對原始光譜進行分解,得到時域和頻域的信息,進一步對信號進行濾噪和平滑,消除低頻背景和高頻噪聲。小波變換常用的小波函數具有多樣性,不同的小波函數處理相同的問題得到的結果相差也較大,其小波函數的正確使用也是當前研究的一大熱點之一。

3.2 散射校正

在對數據進行采集時由于顆粒大小、形狀、分布不均勻等會引起光的散射漂移,導致相同的樣本在不同光譜圖中存在差異,這種現(xiàn)象稱為光的散射現(xiàn)象。MSC和SNV正是用來消除這種現(xiàn)象對光譜造成的影響,MSC計算校正集所有光譜的平均值,將每條光譜與平均光譜做一元線性回歸,得到線性回歸的斜率和截距,以此對原始光譜進行校正,但對于光譜數據來說將每條光譜都視為線性相關是難以實現(xiàn)的。相對于MSC,SNV是從原始光譜中減去該光譜的平均值,再除以標準差,以此來消除光的散射效應。SNV可以減少散射、粒度以及多重線性對近紅外光譜中的一些影響,但這些情況是需要保證整個光譜范圍是均勻的。去趨勢算法[5]通過消除光譜漫反射產生的基線漂移,提高模型的預測效果,該方法不僅可以單獨使用,還可以跟其他預處理方法進行結合使用。

3.3 平滑處理

平滑處理是一種低通濾波器,可以用來消除光譜信號中的隨機噪聲,提高信號的信噪比。移動窗口算法會對光譜信息的邊界點造成損失,此外,在進行移動窗口時對其寬度需要設置一個恰當的參數。當移動窗口過小時不能更好地減少噪聲,過大則會對波譜的波峰平滑過多,造成有用信號失真。因此,提出了SG卷積平滑算法,其實質是一種加權平均算法,主要是利用多項式對原始光譜移動窗口內的數據進行多項式分解并對其進行最小二乘擬合。SG平滑算法是目前使用較為廣泛的去噪方法,但對移動窗口寬度及多項式次數的選擇仍需進行優(yōu)化選擇。

3.4 尺度縮放

尺度縮放的作用就是用來消除數據由于尺度差異過大而帶來的一些影響。均值中心化是將每個樣品光譜減去校正集的平均光譜,用以消除光譜的絕對吸收,能夠增強樣本光譜之間的差異,提高建模時光譜特征的識別,減少數據之間的線性和相互作用項之間的協(xié)方差。光譜標準化又稱均值標準化,將數據經過均值中心化后再除以校正集光譜陣的標準偏差,能夠賦予所有波長變量相同的權重,這對低濃度組分樣品建模有較大幫助。其中,均值中心化和標準化是最常用的2種方法,這2種方法在對光譜數據進行處理的同時,往往對目標函數也進行同樣的變換。歸一化通常用于校正微小光程差異帶來的光譜變化,是將每個光譜點減去所在變量列的最小值后,再除以光譜所在列最大值和最小值的差值。最大最小歸一化具有可以提高模型收斂速度和模型精度的特點。

目前,有學者提出對近紅外光譜預處理方法進行組合,以提高模型預測效果[23]。張朱珊瑩[24]等對選取的血液樣本分別進行無預處理和單一預處理,將每類最優(yōu)的預處理再進行組合研究,并根據建模后的交互驗證均方根誤差選出最優(yōu)的預處理方法。實驗表明將預處理方法按照效果進行分類并組合可得到最佳的預處理效果。羅曦等[25]對62份水稻抗性淀粉含量進行測定,通過比較未進行預處理、MSC+1thD、1thD+SNV預處理效果,表明經過結合的預處理方法無論內部驗證還是外部驗證都具有較高的決定系數和較低的誤差值,模型精度更高,誤差更小。

4 結束語

近紅外光譜技術在現(xiàn)代分析技術中的重要地位已經不言而喻,文章綜述了多達幾十種的選擇算法,這些方法都有各自的優(yōu)點和缺點。然而,在實際應用中還需要考慮如何選取最優(yōu)方案等問題,盡管有規(guī)律可循,但不同方法進行結合,產生的結果也不盡相同,需要對這些方法進行比較,以獲得最優(yōu)效果。現(xiàn)如今,近紅外光譜化學計量學算法也是未來發(fā)展的一個重要方向,也為近紅外光譜的發(fā)展提供一定的借鑒意義。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 天天爽免费视频| 综合色在线| 2021精品国产自在现线看| 国产成人综合日韩精品无码首页| 在线精品亚洲一区二区古装| 亚洲一级毛片在线观| 国产又粗又猛又爽视频| 97视频在线观看免费视频| 无码日韩精品91超碰| 亚洲Aⅴ无码专区在线观看q| 亚洲精品无码久久毛片波多野吉| 91福利免费| 老司国产精品视频91| 国产在线观看91精品亚瑟| 久久五月视频| 久草中文网| 91无码视频在线观看| 亚洲精品片911| 亚洲一级毛片在线播放| 久草热视频在线| 国产精品吹潮在线观看中文| 国产乱人伦偷精品视频AAA| 第九色区aⅴ天堂久久香| 亚洲国产欧美目韩成人综合| 国产精品一区在线观看你懂的| 五月天丁香婷婷综合久久| 亚洲视频免| 久久精品这里只有国产中文精品| 国产资源站| 国产欧美性爱网| 国产呦精品一区二区三区下载| 欧美激情一区二区三区成人| 欧美专区在线观看| 波多野结衣第一页| 毛片网站观看| 国产自在线拍| 最新无码专区超级碰碰碰| 97精品伊人久久大香线蕉| 日本黄色不卡视频| 国产特级毛片aaaaaaa高清| 亚洲电影天堂在线国语对白| 国产不卡一级毛片视频| 免费人成视频在线观看网站| 中文字幕av一区二区三区欲色| 日韩成人免费网站| 99爱在线| 国产免费福利网站| 尤物国产在线| 欧美日本不卡| 成人日韩精品| 亚洲综合婷婷激情| 中文字幕在线不卡视频| 漂亮人妻被中出中文字幕久久| 中文字幕免费视频| 日本一区二区三区精品国产| 中文成人在线| 亚洲a级在线观看| 久久这里只有精品国产99| 久久男人视频| 国产激情无码一区二区免费| 91香蕉国产亚洲一二三区| 国产成人免费手机在线观看视频| 一区二区理伦视频| 久草视频一区| 久热精品免费| 欧美成人综合视频| 国产精品久久久久婷婷五月| 国产精品无码一二三视频| 亚洲天堂免费在线视频| 亚洲国产成人无码AV在线影院L| 欧美日韩国产成人高清视频| аv天堂最新中文在线| 亚洲午夜国产片在线观看| 亚洲一级毛片| 一本色道久久88| 9999在线视频| 久久精品嫩草研究院| 成人自拍视频在线观看| av在线手机播放| 97se亚洲综合在线天天| 久久九九热视频| 四虎成人在线视频|