劉冬陽 孫曉榮 劉翠玲 尚經開 張天陽 馮雨晨
(食品安全大數據技術北京市重點實驗室,北京工商大學計算機與信息工程學院,北京 100048)
小麥具有營養價值高、容易儲藏等特點,因此國家將其作為重要的商品糧食。中國是全球小麥生產量與消費量最大的國家,并且每年還需進口千萬噸的小麥,基本將其全部用于生產小麥粉產品以滿足國民的日常食用需求[1]。灰分是小麥粉的一種主要成分,是指經高溫灼燒后殘留下的無機成分占小麥粉的百分比。灰分會影響面制食品的口感和色澤,如全麥面包的灰分含量就會高于饅頭的含量,國標檢測常用的手段為850 ℃高溫定時法,費時費力且人工成本高[2]。近幾年小麥粉安全事件頻繁發生,這也揭露了小麥粉品質檢測存在的問題和漏洞,體現了對小麥粉品質進行高效準確檢測的重要性。
目前,拉曼光譜技術已被廣泛應用于材料、化工、石油、高分子、地質等多個領域。在食品檢驗方面,Bruno等人[3]建立大豆油中共軛亞油酸(CLA)定量分析模型,相關系數R2達到0.97,實驗結果理想。Stefanov等[4]利用拉曼光譜結合PLS算法測定牛奶中支鏈脂肪酸,相關系數大于0.65。Di Anibal等[5]運用多種拉曼光譜技術檢測了烹飪香料中的蘇丹紅,結果顯示表面增強拉曼檢測結果最佳,說明表面增強拉曼光譜技術可用于區分出蘇丹紅摻假香料。張克勤等[6]采用激光拉曼技術檢測了五谷中的糖類和蛋白質,結果表明碳水化合物含量高于蛋白質。
模擬退火算法在很多優化問題上都有應用,但應用于光譜技術的研究較少,尤其是在拉曼光譜分析技術中的應用更是少之又少。石吉勇等[7]基于SAA優化食醋總酸含量的定量模型,篩選出17個總酸特征波數點,其預測集R2為0.921優于原始譜圖定量模型效果。Balabin等[8]對比16種優化譜區算法對生物柴油特征的提取結果,得出模擬退火算法是優化效果明顯的算法之一。
拉曼光譜譜峰覆蓋了5~4 000 cm-1波數范圍,同時拉曼光譜在采集時所需樣本也較少,因此無論是無機物還是有機物,拉曼光譜都可以測得[9-12]。旨在多角度尋求最優檢測方法,豐富小麥粉檢測手段,運用11種不同預處理方法組合進行光譜預處理,再結合模擬退火算法優化波數,后建立偏最小二乘定量分析模型,提升模型整體預測能力和穩健性,確定拉曼光譜檢測小麥粉品質可行性并優化模型。
1.1.1 用于定量分析的樣本
126個小麥粉樣本全部取自北京古船小麥粉廠,其種類包括富強粉,麥芯粉,精制雪花粉和面包粉。樣本中灰分真實值來自古船小麥粉廠檢驗人員按照國標法 GB5009.4—2016標準用電熱板碳化,進箱式馬弗爐灼燒測得的數據。灰分定量分析實驗隨機取92份樣本作為校正集,34份樣本作為測試集,灰分的取值范圍為0.46%~0.85% 。
1.1.2 儀器與設備
實驗采用DXR激光共焦顯微拉曼光譜儀采集小麥粉樣本的拉曼光譜。激光共焦顯微拉曼光譜儀參數設置為:激光波長780 nm,激光能量20 Ev,光柵400 lines/mm,光闌50 mm,估計分辨率4.7~8.7 cm-1,掃描次數16次,采集曝光時間為5 s。
1.2.1 拉曼光譜的采集
在掃描樣本前,首先要以實驗室內空氣為背景,檢測光學臺內激光。待激光能量值趨于穩定后,取少量小麥粉樣本放置在載玻片上,再一同放置在10倍物鏡下,調節物鏡與載物臺之間的距離直到能清楚地觀察到小麥粉在顯微鏡下的成像,關閉樣品艙門,小麥粉在10倍物鏡下成像如圖1所示。實驗采用面掃描,每次取9個點,掃描出9條光譜,圖2為1次掃描單點的小麥粉樣本拉曼光譜圖。

圖1 小麥粉在10倍物鏡下成像

圖2 小麥粉拉曼光譜圖
1.2.2 模擬退火算法
模擬退火算法(SAA)起源于金屬的退火原理,材料先經過升溫能量變大,原子發生移動,再經冷卻能量減小,移動減慢,最后在常溫時達到全局穩定狀態。而在模擬退火算法中,相當于算法先進行隨機搜索,在經每一次狀態轉移后,進行局部搜索,最終找到最優解。
拉曼光譜的波長點相當于退火材料的微觀狀態,在確定目標函數和初始溫度后,隨機選擇一組波數作為初始解,并開始迭代。在迭代過程中,若新的目標函數優于前一解的目標函數,則將其作為最優解。否則由接受準則判別是否接受這個解,滿足則進行當前解和目標函數的迭代,否則放棄新解。在迭代過程中算法內置記憶器記錄了迭代過程中出現的最優解和目標函數值,為了防止多個極值同時存在,在迭代終止時得到的歷史最優解,即為優選的波數點。
1.2.2.1 接受準則
接受準則用于迭代過程中判別算法是否接受當前解,有利于模擬退火算法最終選擇最優解,是實現全局搜索的要素。
由解i到解j的接受概率由式(1)函數確定:
(1)
式中:f(i)、f(j)分別表示解i、j的目標函數,t表示溫度/ ℃。
1.2.2.2 目標函數
目標函數是模擬退火尋優過程的主要依據。在用拉曼光譜技術分析時,目標函數通常選擇校正模型的相關系數R2、交互驗證校正標準偏差(RMSECV)或者預測標準偏差(RMSEP)作為參數。
1.2.2.3 冷卻進度表
冷卻進度表包含了模擬退火控制進程的所有參數,初始溫度T0,衰減因子α,馬爾可夫鏈長度Lk和終止條件S。當T0足夠大時算法的搜索范圍也會變大,但同時也增加了算法優化的時間,因此降溫策略選擇指數降溫Tk+1=Tk×α。通常選取足夠小的衰減因子α用于避免馬爾可夫鏈過長,而終止條件S的值無限接近于0。
由模擬退火算法的原理可以看出,初始點選擇不具有依賴性,對于隨機搜索算法這是十分重要的優勢,避免了因初始點選擇不當造成的優化失敗,同時以一定幾率接受劣質解,保證算法不陷入局部最優且增加了尋優靈活性。算法隱含并行性,采用并行策略優化提升了收斂速度和解的質量,善于搜索復雜區域,因此選擇了該算法進行波數篩選[13-14]。
實驗建立了關于灰分含量的PLS定量校正模型,并對檢驗集樣本進行預測。在不經過波數篩選時,小麥粉中灰分拉曼全譜PLS定量模型實驗結果R2為0.724 3,RMSEC為0.0760,RMSEP為0.089 8,RPD為1.365 0,RMSEP/RMSEC為1.182 2。
實驗選用了導數、卷積(SG)平滑、歸一化、標準正態變換(standant normal variate transformation, SNV)、多元散射校正(multipicative scatter correction, MSC)共五種常用的光譜預處理法,構成了11種優化組合方法,并通過模擬退火算法優化波數[15-17]。
由于冷卻進度表參數的設置是模擬退火算法尋優過程的關鍵,實驗針對初始溫度以及衰減因子兩個重要參數進行了不同取值的對比分析,探索適合小麥粉PLS定量模型的最優設置。由于模擬退火算法是一種隨機優化方法,因此在每一組參數建立模型時,均優化5次后取平均值作為該模型的實驗結果。模型的RMSEC和RMSEP隨初始溫度變化如圖3所示。

圖3 RMSEC與RMSEP隨初始溫度變化曲線
由圖3可知,模型的RMSEC和RMSEP隨初始溫度的升高逐漸減小,RMSEC在400、2 000和10 000 ℃數值較小,RMSEP在2 000 ℃ 數值較小。主要原因在于足夠大的初始溫度可以保證模型搜索全面,但隨著溫度的增加,優化速度明顯降低,因此綜合以上因素,實驗選取400 ℃ 作為初始溫度。模型的RMSEC和RMSEP隨衰減因子α變化如圖4所示,可以看出,RMSEC和RMSEP在整體趨勢上隨衰減因子增高而降低,但是在0.98之后數值有所回升,RMSEC和RMSEP均在α為0.97時數值最小,因此實驗選取α=0.97作為衰減因子。
通過以上實驗以及參考相關文獻,研究最終選擇的冷卻進度表參數為T0=600 ℃,α=0.98,Lk=400,S=0.000 001 ℃[18-19],最終建立了關于灰分含量的PLS定量分析模型,優化模型結果如表1所示:

圖4 RMSEC與RMSEP隨衰減因子變化曲線

R2RMSECRMSEPRPDRMSEP/RMSEC0.724 30.076 00.089 81.365 01.182 2SAA0.983 80.018 30.019 26.394 81.045 6+SAA0.987 40.016 20.016 87.306 61.036 7SG+SAA170.980 30.020 20.020 65.952 21.019 5250.974 60.023 00.021 15.802 60.920 3SG++SAA170.980 60.020 00.015 97.701 30.794 2250.975 10.022 70.020 85.900 20.915 6SG+SNV+SAA170.987 50.016 10.015 08.167 90.931 8250.984 90.017 70.020 95.866 31.180 0SG+MSC+SAA170.972 20.024 00.018 16.757 80.755 6250.955 80.030 30.023 75.182 40.781 8SG++SAA170.962 40.027 90.028 64.291 61.024 3250.975 10.022 70.019 46.316 30.854 6SG++SAA170.937 10.036 10.041 02.994 61.133 8250.941 80.034 70.026 24.672 60.755 8SG++SNV+SAA170.965 30.026 80.020 95.869 90.779 2250.956 60.030 00.025 04.903 00.833 9SG++MSC+SAA170.967 70.025 90.026 44.642 11.020 7250.980 00.020 30.022 25.524 81.091 0SG++SNV+SAA170.964 10.027 30.031 53.893 11.154 1250.972 60.023 80.022 85.373 30.957 1SG++MSC+SAA170.937 20.036 10.043 32.834 51.198 8250.952 30.031 40.031 13.944 50.988 9
從實驗結果可以看出,優化組合方法結合模擬退火算法處理灰分定量模型后,模型各評價參數都有大幅度提升,11種預處理組合方法對性能參數有不同程度的影響,但在滿足模型穩健性的前提下,所有優化方式都可以滿足檢測準確性要求。其中SG(平滑17個點)+SNV+SAA的優化方式效果最優,相關系數R2為0.987 5,RMSEC和RMSEP分別為0.016 1和0.15,RPD高達8.167 9,波數由3 320個點篩選為110個點,模型穩健性參數良好,定量模型及預測結果如圖5所示,其中橫縱坐標分別表示小麥粉中灰分含量所占的百分比。


圖5 SG(17)+SNV+SAA的灰分拉曼定量模型
本實驗建立了小麥粉中灰分拉曼全譜PLS定量模型,經11種優化組合方法處理并通過模擬退火算法優化波數。實驗結果表明,不同的優化組合方法對指標有一定程度的影響,其中SG(17)+SNV+SAA的優化方式效果最佳,這是因為卷積平滑法本身是一種加權平均方法,通過多項式對移動窗口內信息進行擬合,其更加強調中心點的中心作用, 而SNV消除了固態或粉末狀樣本顆粒大小、表面散射及光程變動對光譜的影響, 二者相綜合,使各項指標大幅度提升,模型的準確性和穩健性得到保障。從實驗結果中可以看出,在模型待測組分濃度與波數相關性以及模型預測準確性方面展現了自身的優越性,預測準確性和誤差分布范圍也比較好。實驗結果顯示,拉曼光譜技術經過預處理并結合模擬退火算法對小麥粉中灰分組分的定量分析有一定的可行性,本研究為小麥粉組分的定量分析提供了一種新的方法途徑,也為建立一個準確性高、穩定性強、可應用于實際生產工作的優秀小麥粉檢測模型提供借鑒。