郭 拓,梁小娟,馬晉芳,袁 凱,葛發歡,肖環賢
(1.陜西科技大學 電子信息與人工智能學院,陜西 西安 710021;2.暨南大學 光電工程系,廣東 廣州510632;3.中山大學 南沙研究院,廣東 廣州 511458;4.江西保利制藥有限公司,江西 贛州 341900)
近紅外光譜包含豐富的化學結構信息、化學成分信息以及物理信息,被廣泛應用于食品安全、藥物檢測和飼料營養成分鑒別等領域[1]。但由于儀器噪聲的干擾以及近紅外光譜之間多重共線性問題,導致光譜信息中存在冗余信息,使得模型計算復雜,預測精度降低[2]。為排除無效信息,提高方法的準確度,有必要對建模波段進行篩選[3]。研究者們現已提出許多波段選擇方法,并取得了一定的效果。
波段選擇分為有監督和無監督兩種方式[4]。有監督方法利用標簽信息來選擇波段,以最大限度地提高訓練樣本光譜數據與標簽數據之間的聯系。但由于人為標記誤差或光譜數據本身的影響可能遠大于光譜數據與標簽數據之間的聯系,進而導致所選波段具有典型的不穩定性[5]。這些因素促使了無監督波段選擇算法的研究。
一般來說,無監督的方法通過探索與標簽信息無關的光譜數據的內在關聯性來選擇具有代表性的波段。Ahmad等[6]提出了一種新的基于k均值聚類的統計波段選擇方法,可較好地用于高光譜數據的波段選擇。Thiagarajan等[7]使用核空間中的多層一維子空間聚類來推斷字典,并使用一個簡單的水平追蹤方案獲得稀疏碼,最終得到特征波段。馬盈倉等[8]提出了基于流形學習與L2,1范數的無監督多標簽特征選擇方法,該算法在L2,1范數回歸的基礎上,用特征流形和數據相似矩陣共同約束特征權重矩陣和偽標簽矩陣,達到特征選擇的目的。簡彩仁等[9]提出了正交基低冗余無監督特征選擇法,該方法在正交基下運用最大互信息系數矩陣選擇低冗余性的特征子集。但是這些方法需要額外的分類或聚類來選擇具有低冗余度的波段,且無法進行波段的自動選擇。Zhu 等[10]提出了一種結合行稀疏性范數和自表示學習(Self-representation learning,SRL)的頻帶選擇模型,可自動進行有效的波段選擇。針對自表示學習算法只關注波段信息而忽略不同樣本對波段選擇的影響,以及無法進行動態存儲波段權重的不足,可擴展的自表示學習算法(Scalable one-pass self-representation learning,SOP-SRL)在自表示學習的基礎上添加了一個權重函數,以區分每個樣本的貢獻度。同時該算法設計了權重向量q,可根據系數矩陣的變化動態存儲波段得分,以及通過添加選擇波段和保持局部流行結構的約束項,更好地捕捉樣本的內在信息。
本文首次將可擴展的自表示學習波段選擇算法應用于近紅外波長選擇中,建立了安胎丸指標含量阿魏酸、黃芩苷和漢黃芩苷的近紅外偏最小二乘校正模型,以期實現安胎丸3個指標含量的快速檢測。
給定矩陣X=[X1,…,Xn]T∈Rn×b,RSR 可將每個波段表示為其他波段(包括自身)的一種線性組合[10]。用公式表示如下:

式中,W∈Rb×b,E∈Rn×b分別為系數矩陣和殘差矩陣。矩陣E的第i行表示重構誤差,W反映不同特征的重要性并力求E達到最小。為了減小異常樣本的干擾和避免平凡解,在求解W時采用L2,1范數描述E,并添加了正則化項R(W)。故上述最小優化問題可以描述如下:

第一項是損失函數,第二項選用||W||2,1作為正則化項,γ為通過交叉驗證確定的正則化參數,用來實現第一項和第二項之間的平衡。假設W= [w1,...,wi,...,wb]T,wi代表W的第i行,||Wi||2為特征權重,表示第i個特征在方程中的重要性,||Wi||2值越大,說明第i個波段選擇的概率越大。在求解W后選擇W得分較高的波段。
正則化自表示學習算法對所有樣本的貢獻不加區分,但在光譜矩陣中,有些樣本存在噪聲干擾或人為操作因素的影響,不對樣本的貢獻度加以區分是不合理的。故SOP-SRL算法中加入了可擴展項,以區分不同樣本對波段選擇的貢獻[11],優化問題(2)的表達式可擴展為:

v∈Rn是取決于重構誤差的權重向量,γ是調節權重分布的一個參數。設置權重緩存向量q?Rn用來動態記錄所有波段的得分。由于RSR 算法在選取波段時,未考慮樣本的一致性且僅從重構誤差的角度來衡量,導致一些固有屬性丟失,故SOP-SRL在表達式(3)中加入了新的正則化項,并考慮了數據的局部流形結構,因而新的優化表達式可表示為:

式中,第三項為考慮樣本的一致性加入的新的正則化項,第四項和第五項用來調整圖的流形化結構。?、γ2和γ3為正則化參數,用來平衡這些項。S代表對應X的樣本相似矩陣,Si,j代表第i個樣本和第j個樣本的相似度,κ(Xi)表示樣本的KNN集合。
獲取緩存向量q,選取得分較高的前m個q值用來選取波段,記為[q1,...,qj,...,qm]。
給定需要建立校正模型的光譜矩陣X=[X1,...,Xn]T∈Rn×b,通過SOP-SRL 算法,選取得分較高的前m個波段,故建模光譜矩陣變為X=[X1,1,...,Xi,j...,Xn,m]T∈Rn×m。假設每個指標含量矩陣為Y∈Rn×1,選用偏最小二乘建立安胎丸指標含量的校正模型。
假設Y與X線性相關,且Y=XB+N。其中,B為系數矩陣,N為噪聲矩陣[12]。首先將X、Y分解為雙線性,即:

T、U分別為X、Y的得分矩陣,P、Q是載荷矩陣,E、F是殘差矩陣。將X與Y相關聯得U=TD+R。D∈Ra×a為通過使殘差最小化而獲得的內部模型系數的對角矩陣,又稱為關聯矩陣;a為PLS主成分數。由此可得性質值Y的估計量Y?=TDRT+F,計算得到的Y?即為每個指標含量預測矩陣。
數據采集方式參考文獻[13],本文采用在2015年測得的2013、2014、2015年的安胎丸樣品數據,共計21 批105 個樣本。這些光譜數據由近紅外光譜儀(SupNIRl500,聚光科技(杭州)有限公司,光柵型)通過應用漫反射模式以1 nm 為間隔在1000~1800 nm 范圍內測得,掃描次數32 次,每丸重復掃描3 次,取其平均值作為最終的光譜數據。同時采用高效液相色譜法(HPLC)(UltiMate 3000 高效液相色譜儀,美國Thermo公司)梯度洗脫測得21批安胎丸中阿魏酸、黃芩苷和漢黃芩苷的指標含量。
在建模過程中,校正集數據可能存在異常光譜,影響校正模型的建立,導致預測結果存在偏差。本文首先使用馬氏距離法剔除光譜中的異常數據[14],圖1 為光譜值和指標含量值的馬氏距離分布圖。對樣本和指標含量都進行異常值剔除,共剔除24 個樣本,繪制剔除異常樣本后安胎丸的近紅外光譜圖,如圖2所示。

圖1 光譜值(A)和指標含量值(B)的樣本馬氏距離分布圖Fig.1 Mahalanobis distance distribution of spectral(A)and target ingredients(B)

圖2 剔除異常樣本后的光譜圖Fig.2 Spectra of abnormal samples removed
將余下的81 個樣本按照X-Y 共生矩陣法(Sample set partitioning based on joint X-Y distance,SPXY)進行分組[15],選取56 個樣本用于建模,25 個樣本用于模型性能驗證。樣本集的分類結果如表1所示。

表1 安胎丸樣本集的分類結果Table 1 Classification results of the Antai pills sample set
特征波長選擇通過去除不相關和冗余的特征,找到具有良好泛化能力的原始特征的緊湊表示,以提升模型的預測能力[10]。為了評價SOP-SRL 波長選擇算法的有效性,分別對安胎丸關鍵指標成分阿魏酸、黃芩苷和漢黃芩苷建立偏最小二乘定量校正模型,并采用全波長、相關系數法(CC)、正則化自表示(RSR)、稀疏子空間聚類(SSC)算法作為對比算法。以校正決定系數、校正均方根誤差(RMSECV)、預測決定系數和預測均方根誤差(RMSEP)作為評價標準,對校正模型的預測效果進行評估[16]。決定系數反映變量之間的相關關系密切程度,RMSECV 用來衡量模型對校正集的預測能力,RMSEP 用來衡量模型對預測集的預測能力。決定系數越大,均方根誤差越小,表明模型的性能越好。
CC、RSR、SSC 和SOP-SRL 在阿魏酸、黃芩苷和漢黃芩苷數據集上篩選出來的變量數分別為784、559、556、70,724、431、601、67,709、431、570、87。圖3 為3 種指標成分運用4 種波長選擇算法篩選的變量分布圖。
從圖3可以看出,不同波長選擇算法對不同指標含量的波長篩選存在隨機性。CC 選擇的變量過多且過于集中,可能過分考慮了光譜數據與指標含量之間的相關信息而忽略了光譜數據本身之間的關聯性,未能繼續去除冗余。RSR、SSC 算法和SOP-SRL 算法選擇的變量分布較為類似,都集中在1000~1100 nm 和1400~1700 nm。這3 種算法通過分析光譜數據的內在關聯性選擇出代表性較好的波段,SOP-SRL 算法涵蓋了RSR 算法和SSC 算法的波段范圍,說明SOP-SRL 算法在有效選擇代表信息的同時更好地去除了冗余信息。

圖3 各方法在3種安胎丸指標含量數據集中篩選出來的變量分布Fig.3 Distribution of variables selected by each method for three property values of Antai pillsA-C:ferulic acid,baicalin,wogonoside;from left to right:CC,RSR,SSC,SOP-SRL
按照表1的分類結果建立安胎丸指標含量阿魏酸、黃芩苷和漢黃芩苷的PLS校正模型。將基于4種波長選擇算法保留的變量數建立的PLS 校正模型與基于全波長(FULL)建立的PLS 校正模型進行比較,以RMSECV 最小來確定樣本的主成分數[17]。選用“2.3”所述4種指標評價模型性能,安胎丸光譜數據經過不同波長選擇方法篩選的結果如表2所示。從表2可以看出,不同指標成分建立的模型不同,選擇的波長變量數也不同;對于同一指標成分,采用不同的波長選擇算法建立的近紅外光譜校正模型較全波長有更好的預測效果,且建模所用的波長數更少。

表2 選用不同波長選擇方法的PLS回歸模型預測效果Table 2 Predictive effects of PLS regression model with different wavelength selection methods

(續表2)
從阿魏酸的結果可以看出,4種波長選擇算法的建模變量數分別為784、559、556和70,相比于全波長建模均有所減少,其中SOP-SRL算法選擇出的變量數最少;相較于全波長,4種算法的分別從0.9306 提高到0.9323、0.9354、0.9308 和0.9473;分別從0.9119 提高到0.9129、0.9197、0.9231 和0.9388,表明4 種算法在減少波長變量的同時提高了變量之間的相關性。RMSECV 分別從0.0693下降到0.0685、0.0669、0.0692和0.0600,表明4種算法波長選擇后模型的預測能力得到了提升;RMSEP 分別從0.0801 下降到0.0797、0.0765、0.0749 和0.0653,表明4 種算法波長選擇后模型的泛化能力得到了提升。SOP-SRL算法相對于其他3種對比算法提升效果最為顯著,表明對于安胎丸的阿魏酸這一指標含量,SOP-SRL 算法可以更加有效地篩選相關波長變量,并剔除無關變量,從而提升模型的預測效果。
從黃芩苷和漢黃芩苷的結果可以看出,相對于全波長,SOP-SRL的波長變量數從800分別減少到67 和87,RMSEP 從6.3495、0.7425 下降到3.6208、0.4073,分別下降了43%、45%。相應的R2p從0.8794、0.9158提高到0.9526、0.9701,分別提高了8%、6%。表明經SOP-SRL波長選擇后的建模效果更好,模型的預測能力得到了顯著提升。
整體來看,SOP-SRL 波長選擇算法對3 種不同指標成分均有較好的預測效果,且相比于其他3 種波長選擇算法效果更好,說明通過添加基于圖形的正則化項和流形約束,能夠顯著提高所選頻帶的代表性。
高效的中藥質量評價是近紅外光譜分析技術的一個重要研究方向,但在建立中藥質量檢測模型時,樣品光譜數據中包含了大量的冗余信息,嚴重影響了模型的準確性。針對這一問題,本文提出了一種基于SOP-SRL 波段選擇與PLS 建模的定量模型分析方法,并選取阿魏酸、黃芩苷和漢黃芩苷為研究對象,建立了安胎丸指標成分檢測的近紅外光譜模型。探究了可擴展的自表示學習波段選擇算法對校正模型預測結果的影響,結果發現,基于該算法可以有效地選擇出代表性更強的波段,大大減少模型計算量,同時模型的預測效果得到了顯著提升。該算法為近紅外光譜數據的波段選擇提供了新方法。