李鑫++賓俊++范偉++周冀衡++陳沃若



摘要 近紅外光譜(NIR)以漫反射模式對非均質樣本進行測量時,由于其光譜散射和吸收系數差異較大,建立的校正模型準確性和穩健性較低,因此,本研究提出了一種基于均質樣本和模型轉移方法建立混合模型的策略,解決非均質樣本近紅外光譜檢測的問題。以煙葉樣本為研究對象,分別建立了基于henk專利算法(henk′s)、分段直接標準化(PD)和基于典型相關分析的模型轉移算法(CCCA)的煙粉+煙絲、煙粉+煙片混合模型,用于煙絲和煙片樣本中煙堿含量的預測。結果表明,混合模型對煙絲和煙片樣本的預測均方誤差(RMEP)較直接建模分別降低了139%和273%,預測結果有一定的改善,穩健性提高,3種方法中CCCA表現最優。因此,采用近紅外光譜均質模型和模型轉移方法建立的混合模型對非均質樣本的測定具有可行性,有利于在線近紅外光譜分析技術的發展,可為近紅外光譜模型的共享提供參考。
關鍵詞 校正模型; 均質樣本; 不同物理狀態; 模型轉移; 混合模型
1引 言
近紅外光譜(NIR)技術是一種簡單、快速、無損的分析方法,已廣泛應用于石油、化工、煙草、食品、醫藥等領域\[1~5\]。漫反射測量是NIR最常用的測量模式,樣本狀態對測量過程的影響較大。研究表明,非均勻樣本的物理狀態將會導致光譜散射及吸收系數的變化,從而可能降低模型的準確性和魯棒性\[6,7\]。因此,NIR校正模型多建立在粉末或均質樣本的基礎上。而在許多應用中,如在線生產、質量控制、原位分析等\[8~10\],樣品都是非均勻狀態的,所以為了保證模型長期的可靠性和準確性,可采用模型轉移和混合建模的策略修正樣品狀態變化造成的影響。
目前,研究樣品不同物理狀態模型轉移的文獻較少\[11,12\],主要集中于采用單一均質模型預測非均質樣本,沒有考慮模型包容性的問題。鑒于此,本研究以煙葉為研究對象,進行了煙片、煙絲和煙粉3種物理狀態樣品之間的模型轉移和混合建模研究,采用模型轉移方法與混合建模技術相結合的方式建立了基于均質煙粉模型的混合模型,增強了模型的包容性,并成功應用于非均勻煙絲樣本和煙片樣本中煙堿含量的預測。通過樣本不同物理狀態間的模型共享研究,以期能提高模型的利用效率,為在線分析、實時檢測等提供技術參考。
2實驗部分
21實驗材料
煙葉樣本收集自云南省騰沖縣,選取大小、形狀較一致的完整煙葉樣本85個。煙堿含量根據《YC/1602002煙草及煙草制品總植物堿的測定》行業標準\[11\]使用PULE 3000連續流動注射分析儀(意大利ystea公司)進行測定。
22光譜采集及樣本劃分
選用ipec BW004光柵掃描型近紅外光譜儀(美國B&W ek OptoElectronics公司)進行光譜采集,采用儀器自帶的標準漫反射探頭垂直緊貼樣品進行測量,光譜采集范圍為5881~11111 cm
ymbolm@@ 1,平均分辨率為35 nm,掃描次數為32次。進行光譜采集前,先對煙葉進行手工撕葉處理去除煙梗,然后將煙葉剪成500~800 mm2的煙片,用于光譜采集;將煙片用微型切絲機制成寬1 mm的煙絲,待煙絲樣測量完畢后將其用旋風粉碎機粉碎,并過60目篩,得到煙葉的粉末狀樣,煙片、煙絲和煙粉樣品均測量6次取平均值,3種不同物理形態的煙葉樣品在光譜采集前均置于相對濕度16%、溫度25℃的恒溫恒濕箱中平衡含水率48 h,所有的光譜采集操作均在室溫25℃下進行。
利用Kennardtone法\[14\]對光譜數據進行樣本劃分:65個樣本作為訓練集,20個樣本作為測試集,由于一般標樣都取自訓練集,故使用Kennardtone方法從訓練集中選擇15個樣本作為備選標樣集。
23模型轉移方法
模型轉移\[15\]是指通過數學方法建立源機光譜與目標機光譜之間的函數關系,由確定的函數關系對光譜或預測結果進行轉換,實現模型的共享和有效利用,常見的光譜模型轉移方法有斜率截距算法(BC)\[16\]、專利算法(henk′s)\[17\]、直接標準化(D)\[18\]、分段直接標準化(PD)\[19,20\]和基于典型相關分析的模型轉移法(CCCA)\[21\]等。本研究采用henk′s、PD和CCCA對煙葉NIR模型進行轉移研究。
231henk′s算法henk′s是一種對光譜波長和吸光度都進行校正的方法。首先進行波長校正,對應于源機所測的標樣光譜矩陣的第i個波長點mj,在目標機標樣光譜上選擇窗口為(k+j+1)大小的光譜段s,k+j+1,分別計算mj與該光譜段每個波長點的相關系數,得到目標機上波長l與源機光譜波長i相關系數ri最大,為使結果更加精確,選取波長l-1、l、l+1與對應的相關系數rl-1、 rl\, rl+1建立一元二次拋物線模型:
由該模型得到目標機上與源機波長i對應的波長i′,待求出所有對應的i′后,用求得的i和i′建立一元二次拋物線波長校正模型:
波長校正后進行吸光度的校正,用插值方法計算目標波長i′的吸光度矩陣s,j,
然后可由最小二乘法計算出saj和sbj。對于未知光譜Ps,un,先用波長校正公式(2)對其波長校正,然后用插值計算s,un, 最后由式(3)得到轉移的結果。
232PD算法PD方法是基于D的改進算法,在光譜的模型轉移中有廣泛的應用,在目標機光譜中取寬度為2k+1窗口的吸光度矩陣Zi:
然后將源機光譜的第i個波長點的吸光度矢量am,j與Zi建立數學模型關系:
用PCR或PL對上式進行求解,將回歸系數bi置于矩陣的對角線上,同時將其他元素設為0,則轉換矩陣F為:
待轉換矩陣F求出后,則目標機上的未知光譜Ps轉換成匹配源機上的光譜Pm。
233CCCA算法CCCA是基于典型相關分析(CCA)原理而研發的模型轉移算法,由于兩組光譜之間反映被測物信息的部分是一致的,且相互之間具有一定的線性相關性,而噪聲和干擾信息則是隨機的,不具有相關性,因此,通過CCA可以提取兩組光譜之間的線性相互依賴關系,并濾除噪聲和干擾信息。
假設選擇N個光譜作為模型轉移的標準光譜,令源機和目標機的標準光譜矩陣分別為m和s,執行CCA后得到的典型向量分別為Wm和Ws,則典型變量Lm和Ls可以分別表示為:
則轉換矩陣F1可通過最小二乘法計算得到:
同理,轉換矩陣F2為:
將目標機的預測集Ps與典型變量Ws相乘可得到典型變量Ks:
最后利用轉換矩陣F1和F2可將Ks轉換為能直接在源機模型上進行預測的數據集Pm:
從而實現基于典型相關分析的光譜轉移。
24模型評價和軟件
文章采用偏最小二乘法(PL)建立回歸模型,通過10折交互檢驗選擇最佳潛變量數,將訓練均方誤差(RMEC)和預測均方誤差(RMEP)作為模型性能評價的標準。所有數據處理和計算都采用MALAB 2015a(美國Mathwork公司)完成。
3結果與討論
31光譜差異分析
在建模前,需對光譜進行相關預處理以消除儀器噪聲和其它背景的影響,提高光譜分辨率和靈敏度。經試算,選擇avitskyGolay二階導數與光譜平滑組合預處理的方式,可有效扣除不同儀器間的光譜差異,求導窗口設置為15,平滑窗口為13。
從圖1A可知,3種物理狀態的樣本光譜均發生了漂移,煙粉和煙絲光譜差異較小,三者吸光度的總體變化趨勢一致,但是光譜差異不明顯。從圖1B可知,雖然適當的預處理方法可以減少光譜基線漂移的影響,但不能消除樣品狀態造成的光譜偏差,經過預處理后,三者光譜之間的差異更加明顯,如在8300 cm
ymbolm@@ 1附近,煙片樣光譜波谷變寬、高度變小,而在7100和6900 cm
ymbolm@@ 1處,三者波峰波谷高度都不一致。因此,不同物理狀態樣本的光譜存在一定的偏差和變化,且不能通過預處理消除。
圖2為煙草3種物理狀態光譜的主成分分析(PCA)得分圖,盡管三者主成分得分有一定交集,但不同物理狀態之間的差異非常明顯,煙粉樣的波動范圍最小、煙絲樣次之、煙片樣最大,說明樣本物理狀態的改變會導致光譜的變化,不同物理狀態的樣品光譜建模可能會導致模型根本無法使用或預測結果偏差較大。
32PL建模
通過PL建立的煙葉不同物理狀態的煙堿預測模型的性能見表1,煙粉模型的整體性能優于煙絲和煙片模型,煙粉模型煙堿的RMEP僅為01490,表明煙粉模型性能較優。煙粉校正模型分別預測煙絲和煙片樣中煙堿的RMEP較煙絲和煙片模型的自身預測結果分別增大了3294%和2887%,這主要是由于煙絲和煙片光譜與煙粉光譜差異較大所致。因此,在簡單的模型套用效果不佳的情況下, 可以使用模型轉移技術對不同物理狀態的光譜進行校正,提高煙絲和煙片樣本的預測效果。
33模型轉移分析
由于henk′s、PD和CCCA都是有標算法,故而在進行模型轉移分析時需先對標樣數進行優化。標樣數太少,會導致校正系數中包含的轉換信息不充分;標樣數太多,則不方便實際應用,且會增加計算量,甚至還會出現過校正。圖3為3種模型轉移方法執行光譜轉移時最佳標樣數的選擇。從圖3可知,標樣數量并非越多越好,隨著樣本量增加,RMEP值呈先降低后升高的趨勢,綜合考慮,3個模型的標樣數選擇14較好。
選擇最佳標樣數后,利用henk′s、PD和CCCA將煙片和煙絲光譜分別轉移到煙粉模型上,并對其中的煙堿含量進行預測,從表2可知,經henk′s、CCCA轉移后的煙絲、煙片光譜預測結果分別優于其它方法轉移后的光譜預測結果,PD的效果最差,且隨著窗口增大,效果越差,窗口選擇3較好。對表1和表2的結果進行對比可知,將煙絲光譜轉移到煙粉模型的預測精度優于將煙片光譜轉移到煙粉模型與使用煙粉模型對煙片、煙絲樣本直接進行預測的結果相比較,煙片和煙絲的煙堿RMEP最大分別降低了657%和476%,預測結果有所改善,但是較實際應用還有一定差距。因此,單純采用模型轉移方法無法實現煙粉模型對非均質煙絲、煙片樣本的準確預測,需要綜合考慮樣本、模型和模型轉移技術的有機結合,以提高非均質樣本的預測精度。
34混合模型的建立
混合建模的策略是指通過在基礎模型中增加變異樣本的信息建立一個精確和健壯的模型,獲得更好的預測能力和更廣的預測范圍。本實驗將煙粉模型作為基礎模型,以煙葉樣本的不同物理狀態為變異,分別添加一定數量的煙絲和煙片樣本到煙粉模型中,建立混合模型,表3和表4分別為煙粉+煙絲、煙粉+煙片的混合模型分別對煙絲和煙片樣本的預測結果。從表3可知,直接添加預處理的煙絲樣本到煙粉樣本中,建立的混合模型,其預測能力沒有明顯提高,與直接使用煙粉模型預測經轉移的煙絲樣本的預測誤差接近。而通過對煙粉模型添加一定數量的經模型轉移后的煙絲樣品建立的混合模型, 可使模型的穩定性和預測能力提高,其中添加30條CCCA轉移后的煙絲樣本光譜比直接使用煙粉模型預測煙絲樣本的RMEP降低了139%,模型的穩健性增強\[22\]。3種方法預測效果的對比中,CCCA的結果優于henk′s和PD方法。
由表4可知,3種方法的對比分析中,增加20個CCCA轉移的煙絲樣品建立的混合模型能得到最佳的預測結果。與煙粉模型預測轉移后的煙片樣本結果相比,混合模型預測性能明顯提升,RMEP從02559降低到02028,添加20個CCCA轉移的煙絲樣品的混合模型預測煙片樣本的RMEP較煙片模型預測煙片樣本的RMEP降低了273%。因此,增加約20%的煙片樣本可以較好地提高混合模型對煙片的預測能力,同時也進一步證明了混合模型的有效性,在基礎模型中添加經模型轉移后的樣本基本可實現無信息的丟失,達到了良好的預測效果。綜上所述,通過向煙粉模型中增加一定量的經轉移后的煙絲和煙片樣本作為建模集,可以提高模型的穩健性,進而提高對煙絲和煙片樣本中煙堿的預測精度。