999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于可擴展的自表示學習波段選擇算法在近紅外光譜回歸建模中的影響研究

2022-08-17 01:39:16梁小娟馬晉芳葛發歡肖環賢
分析測試學報 2022年8期
關鍵詞:模型

郭 拓,梁小娟,馬晉芳,袁 凱,葛發歡,肖環賢

(1.陜西科技大學 電子信息與人工智能學院,陜西 西安 710021;2.暨南大學 光電工程系,廣東 廣州510632;3.中山大學 南沙研究院,廣東 廣州 511458;4.江西保利制藥有限公司,江西 贛州 341900)

近紅外光譜包含豐富的化學結構信息、化學成分信息以及物理信息,被廣泛應用于食品安全、藥物檢測和飼料營養成分鑒別等領域[1]。但由于儀器噪聲的干擾以及近紅外光譜之間多重共線性問題,導致光譜信息中存在冗余信息,使得模型計算復雜,預測精度降低[2]。為排除無效信息,提高方法的準確度,有必要對建模波段進行篩選[3]。研究者們現已提出許多波段選擇方法,并取得了一定的效果。

波段選擇分為有監督和無監督兩種方式[4]。有監督方法利用標簽信息來選擇波段,以最大限度地提高訓練樣本光譜數據與標簽數據之間的聯系。但由于人為標記誤差或光譜數據本身的影響可能遠大于光譜數據與標簽數據之間的聯系,進而導致所選波段具有典型的不穩定性[5]。這些因素促使了無監督波段選擇算法的研究。

一般來說,無監督的方法通過探索與標簽信息無關的光譜數據的內在關聯性來選擇具有代表性的波段。Ahmad等[6]提出了一種新的基于k均值聚類的統計波段選擇方法,可較好地用于高光譜數據的波段選擇。Thiagarajan等[7]使用核空間中的多層一維子空間聚類來推斷字典,并使用一個簡單的水平追蹤方案獲得稀疏碼,最終得到特征波段。馬盈倉等[8]提出了基于流形學習與L2,1范數的無監督多標簽特征選擇方法,該算法在L2,1范數回歸的基礎上,用特征流形和數據相似矩陣共同約束特征權重矩陣和偽標簽矩陣,達到特征選擇的目的。簡彩仁等[9]提出了正交基低冗余無監督特征選擇法,該方法在正交基下運用最大互信息系數矩陣選擇低冗余性的特征子集。但是這些方法需要額外的分類或聚類來選擇具有低冗余度的波段,且無法進行波段的自動選擇。Zhu 等[10]提出了一種結合行稀疏性范數和自表示學習(Self-representation learning,SRL)的頻帶選擇模型,可自動進行有效的波段選擇。針對自表示學習算法只關注波段信息而忽略不同樣本對波段選擇的影響,以及無法進行動態存儲波段權重的不足,可擴展的自表示學習算法(Scalable one-pass self-representation learning,SOP-SRL)在自表示學習的基礎上添加了一個權重函數,以區分每個樣本的貢獻度。同時該算法設計了權重向量q,可根據系數矩陣的變化動態存儲波段得分,以及通過添加選擇波段和保持局部流行結構的約束項,更好地捕捉樣本的內在信息。

本文首次將可擴展的自表示學習波段選擇算法應用于近紅外波長選擇中,建立了安胎丸指標含量阿魏酸、黃芩苷和漢黃芩苷的近紅外偏最小二乘校正模型,以期實現安胎丸3個指標含量的快速檢測。

1 算法與原理

1.1 正則化自表示學習算法(Regularized self-representation,RSR)

給定矩陣X=[X1,…,Xn]T∈Rn×b,RSR 可將每個波段表示為其他波段(包括自身)的一種線性組合[10]。用公式表示如下:

式中,W∈Rb×b,E∈Rn×b分別為系數矩陣和殘差矩陣。矩陣E的第i行表示重構誤差,W反映不同特征的重要性并力求E達到最小。為了減小異常樣本的干擾和避免平凡解,在求解W時采用L2,1范數描述E,并添加了正則化項R(W)。故上述最小優化問題可以描述如下:

第一項是損失函數,第二項選用||W||2,1作為正則化項,γ為通過交叉驗證確定的正則化參數,用來實現第一項和第二項之間的平衡。假設W= [w1,...,wi,...,wb]T,wi代表W的第i行,||Wi||2為特征權重,表示第i個特征在方程中的重要性,||Wi||2值越大,說明第i個波段選擇的概率越大。在求解W后選擇W得分較高的波段。

1.2 可擴展的自表示學習算法

正則化自表示學習算法對所有樣本的貢獻不加區分,但在光譜矩陣中,有些樣本存在噪聲干擾或人為操作因素的影響,不對樣本的貢獻度加以區分是不合理的。故SOP-SRL算法中加入了可擴展項,以區分不同樣本對波段選擇的貢獻[11],優化問題(2)的表達式可擴展為:

v∈Rn是取決于重構誤差的權重向量,γ是調節權重分布的一個參數。設置權重緩存向量q?Rn用來動態記錄所有波段的得分。由于RSR 算法在選取波段時,未考慮樣本的一致性且僅從重構誤差的角度來衡量,導致一些固有屬性丟失,故SOP-SRL在表達式(3)中加入了新的正則化項,并考慮了數據的局部流形結構,因而新的優化表達式可表示為:

式中,第三項為考慮樣本的一致性加入的新的正則化項,第四項和第五項用來調整圖的流形化結構。?、γ2和γ3為正則化參數,用來平衡這些項。S代表對應X的樣本相似矩陣,Si,j代表第i個樣本和第j個樣本的相似度,κ(Xi)表示樣本的KNN集合。

獲取緩存向量q,選取得分較高的前m個q值用來選取波段,記為[q1,...,qj,...,qm]。

1.3 基于SOP-SRL的偏最小二乘算法

給定需要建立校正模型的光譜矩陣X=[X1,...,Xn]T∈Rn×b,通過SOP-SRL 算法,選取得分較高的前m個波段,故建模光譜矩陣變為X=[X1,1,...,Xi,j...,Xn,m]T∈Rn×m。假設每個指標含量矩陣為Y∈Rn×1,選用偏最小二乘建立安胎丸指標含量的校正模型。

假設Y與X線性相關,且Y=XB+N。其中,B為系數矩陣,N為噪聲矩陣[12]。首先將X、Y分解為雙線性,即:

T、U分別為X、Y的得分矩陣,P、Q是載荷矩陣,E、F是殘差矩陣。將X與Y相關聯得U=TD+R。D∈Ra×a為通過使殘差最小化而獲得的內部模型系數的對角矩陣,又稱為關聯矩陣;a為PLS主成分數。由此可得性質值Y的估計量Y?=TDRT+F,計算得到的Y?即為每個指標含量預測矩陣。

2 實驗部分

2.1 數據集

數據采集方式參考文獻[13],本文采用在2015年測得的2013、2014、2015年的安胎丸樣品數據,共計21 批105 個樣本。這些光譜數據由近紅外光譜儀(SupNIRl500,聚光科技(杭州)有限公司,光柵型)通過應用漫反射模式以1 nm 為間隔在1000~1800 nm 范圍內測得,掃描次數32 次,每丸重復掃描3 次,取其平均值作為最終的光譜數據。同時采用高效液相色譜法(HPLC)(UltiMate 3000 高效液相色譜儀,美國Thermo公司)梯度洗脫測得21批安胎丸中阿魏酸、黃芩苷和漢黃芩苷的指標含量。

2.2 剔除異常數據及樣本劃分

在建模過程中,校正集數據可能存在異常光譜,影響校正模型的建立,導致預測結果存在偏差。本文首先使用馬氏距離法剔除光譜中的異常數據[14],圖1 為光譜值和指標含量值的馬氏距離分布圖。對樣本和指標含量都進行異常值剔除,共剔除24 個樣本,繪制剔除異常樣本后安胎丸的近紅外光譜圖,如圖2所示。

圖1 光譜值(A)和指標含量值(B)的樣本馬氏距離分布圖Fig.1 Mahalanobis distance distribution of spectral(A)and target ingredients(B)

圖2 剔除異常樣本后的光譜圖Fig.2 Spectra of abnormal samples removed

將余下的81 個樣本按照X-Y 共生矩陣法(Sample set partitioning based on joint X-Y distance,SPXY)進行分組[15],選取56 個樣本用于建模,25 個樣本用于模型性能驗證。樣本集的分類結果如表1所示。

表1 安胎丸樣本集的分類結果Table 1 Classification results of the Antai pills sample set

2.3 特征波長的選擇及模型評價

特征波長選擇通過去除不相關和冗余的特征,找到具有良好泛化能力的原始特征的緊湊表示,以提升模型的預測能力[10]。為了評價SOP-SRL 波長選擇算法的有效性,分別對安胎丸關鍵指標成分阿魏酸、黃芩苷和漢黃芩苷建立偏最小二乘定量校正模型,并采用全波長、相關系數法(CC)、正則化自表示(RSR)、稀疏子空間聚類(SSC)算法作為對比算法。以校正決定系數、校正均方根誤差(RMSECV)、預測決定系數和預測均方根誤差(RMSEP)作為評價標準,對校正模型的預測效果進行評估[16]。決定系數反映變量之間的相關關系密切程度,RMSECV 用來衡量模型對校正集的預測能力,RMSEP 用來衡量模型對預測集的預測能力。決定系數越大,均方根誤差越小,表明模型的性能越好。

3 結果與討論

3.1 變量選擇結果

CC、RSR、SSC 和SOP-SRL 在阿魏酸、黃芩苷和漢黃芩苷數據集上篩選出來的變量數分別為784、559、556、70,724、431、601、67,709、431、570、87。圖3 為3 種指標成分運用4 種波長選擇算法篩選的變量分布圖。

從圖3可以看出,不同波長選擇算法對不同指標含量的波長篩選存在隨機性。CC 選擇的變量過多且過于集中,可能過分考慮了光譜數據與指標含量之間的相關信息而忽略了光譜數據本身之間的關聯性,未能繼續去除冗余。RSR、SSC 算法和SOP-SRL 算法選擇的變量分布較為類似,都集中在1000~1100 nm 和1400~1700 nm。這3 種算法通過分析光譜數據的內在關聯性選擇出代表性較好的波段,SOP-SRL 算法涵蓋了RSR 算法和SSC 算法的波段范圍,說明SOP-SRL 算法在有效選擇代表信息的同時更好地去除了冗余信息。

圖3 各方法在3種安胎丸指標含量數據集中篩選出來的變量分布Fig.3 Distribution of variables selected by each method for three property values of Antai pillsA-C:ferulic acid,baicalin,wogonoside;from left to right:CC,RSR,SSC,SOP-SRL

3.2 PLS回歸結果比較

按照表1的分類結果建立安胎丸指標含量阿魏酸、黃芩苷和漢黃芩苷的PLS校正模型。將基于4種波長選擇算法保留的變量數建立的PLS 校正模型與基于全波長(FULL)建立的PLS 校正模型進行比較,以RMSECV 最小來確定樣本的主成分數[17]。選用“2.3”所述4種指標評價模型性能,安胎丸光譜數據經過不同波長選擇方法篩選的結果如表2所示。從表2可以看出,不同指標成分建立的模型不同,選擇的波長變量數也不同;對于同一指標成分,采用不同的波長選擇算法建立的近紅外光譜校正模型較全波長有更好的預測效果,且建模所用的波長數更少。

表2 選用不同波長選擇方法的PLS回歸模型預測效果Table 2 Predictive effects of PLS regression model with different wavelength selection methods

(續表2)

從阿魏酸的結果可以看出,4種波長選擇算法的建模變量數分別為784、559、556和70,相比于全波長建模均有所減少,其中SOP-SRL算法選擇出的變量數最少;相較于全波長,4種算法的分別從0.9306 提高到0.9323、0.9354、0.9308 和0.9473;分別從0.9119 提高到0.9129、0.9197、0.9231 和0.9388,表明4 種算法在減少波長變量的同時提高了變量之間的相關性。RMSECV 分別從0.0693下降到0.0685、0.0669、0.0692和0.0600,表明4種算法波長選擇后模型的預測能力得到了提升;RMSEP 分別從0.0801 下降到0.0797、0.0765、0.0749 和0.0653,表明4 種算法波長選擇后模型的泛化能力得到了提升。SOP-SRL算法相對于其他3種對比算法提升效果最為顯著,表明對于安胎丸的阿魏酸這一指標含量,SOP-SRL 算法可以更加有效地篩選相關波長變量,并剔除無關變量,從而提升模型的預測效果。

從黃芩苷和漢黃芩苷的結果可以看出,相對于全波長,SOP-SRL的波長變量數從800分別減少到67 和87,RMSEP 從6.3495、0.7425 下降到3.6208、0.4073,分別下降了43%、45%。相應的R2p從0.8794、0.9158提高到0.9526、0.9701,分別提高了8%、6%。表明經SOP-SRL波長選擇后的建模效果更好,模型的預測能力得到了顯著提升。

整體來看,SOP-SRL 波長選擇算法對3 種不同指標成分均有較好的預測效果,且相比于其他3 種波長選擇算法效果更好,說明通過添加基于圖形的正則化項和流形約束,能夠顯著提高所選頻帶的代表性。

4 結論

高效的中藥質量評價是近紅外光譜分析技術的一個重要研究方向,但在建立中藥質量檢測模型時,樣品光譜數據中包含了大量的冗余信息,嚴重影響了模型的準確性。針對這一問題,本文提出了一種基于SOP-SRL 波段選擇與PLS 建模的定量模型分析方法,并選取阿魏酸、黃芩苷和漢黃芩苷為研究對象,建立了安胎丸指標成分檢測的近紅外光譜模型。探究了可擴展的自表示學習波段選擇算法對校正模型預測結果的影響,結果發現,基于該算法可以有效地選擇出代表性更強的波段,大大減少模型計算量,同時模型的預測效果得到了顯著提升。該算法為近紅外光譜數據的波段選擇提供了新方法。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 日本午夜影院| 国产噜噜噜视频在线观看| 自拍中文字幕| 凹凸国产分类在线观看| 精品小视频在线观看| 九九久久精品国产av片囯产区| 亚洲an第二区国产精品| 91久久精品日日躁夜夜躁欧美| 国产精选小视频在线观看| 第一页亚洲| 亚洲高清中文字幕| 亚洲日本www| 欧美日韩国产精品va| 免费一级全黄少妇性色生活片| 欧美激情伊人| 精品久久久久久成人AV| 91青青在线视频| www.精品国产| 高潮毛片免费观看| 国产精品人莉莉成在线播放| 国产91小视频| 久久久久中文字幕精品视频| 在线a网站| 国产欧美日韩专区发布| 日韩精品成人在线| 全部免费毛片免费播放| 国产网友愉拍精品视频| 99尹人香蕉国产免费天天拍| 日韩成人在线网站| 久久久久九九精品影院| AⅤ色综合久久天堂AV色综合| 青青国产视频| 欧美精品伊人久久| 毛片a级毛片免费观看免下载| 欧美成a人片在线观看| 99久久精品国产精品亚洲| 久久夜色精品国产嚕嚕亚洲av| 亚洲成a∧人片在线观看无码| 国产成人av一区二区三区| 中文字幕在线日韩91| 亚洲无码四虎黄色网站| 欧美亚洲日韩不卡在线在线观看| 内射人妻无码色AV天堂| 欧美日韩亚洲综合在线观看| 欧美精品亚洲精品日韩专区| 97se亚洲综合不卡| 国产chinese男男gay视频网| 国产美女在线观看| 四虎国产成人免费观看| 亚洲青涩在线| 国产91丝袜在线播放动漫| 日本黄网在线观看| 国产人成乱码视频免费观看| 97国产精品视频自在拍| 91系列在线观看| 日本免费新一区视频| 免费国产不卡午夜福在线观看| 999国产精品永久免费视频精品久久| 熟妇人妻无乱码中文字幕真矢织江| 91精品视频播放| 久久精品aⅴ无码中文字幕| 大陆精大陆国产国语精品1024| 九色91在线视频| 高清欧美性猛交XXXX黑人猛交| 亚洲欧美自拍一区| 精品国产乱码久久久久久一区二区| 欧美一区二区啪啪| 全免费a级毛片免费看不卡| 为你提供最新久久精品久久综合| 国产成人精品一区二区三在线观看| 久久精品人人做人人爽97| 99re热精品视频中文字幕不卡| 婷婷色婷婷| 成人免费一区二区三区| 中文字幕在线观| 亚洲黄色片免费看| 亚洲无码精品在线播放| 国产成年女人特黄特色毛片免 | 狠狠综合久久| 91人妻日韩人妻无码专区精品| 婷婷99视频精品全部在线观看| 久草中文网|