竇 穎,孫曉榮*,劉翠玲,肖 爽(北京工商大學計算機與信息工程學院,食品安全大數據技術北京市重點實驗室,北京 100048)
?
基于模擬退火算法優化波長的面粉品質檢測
竇 穎,孫曉榮*,劉翠玲,肖 爽
(北京工商大學計算機與信息工程學院,食品安全大數據技術北京市重點實驗室,北京100048)
摘 要:模擬退火算法(simulated annealing algorithm,SAA)是一種隨機搜索、全局優化算法,為提高近紅外光譜檢測面粉品質模型的準確度與穩健性,實驗提出基于SAA優化波長,再結合偏最小二乘(partial least squares,PLS)法建模預測的定量模型,并對SAA中冷卻進度表參數設置進行對比分析。實驗依據面粉中灰分含量梯度,隨機選取126 份樣本的近紅外光譜建立SAA-PLS模型。結果發現,SAA從2 074 個波數優選出70 個波數,結合PLS建立的定量模型相關系數為0.976 0,交互驗證均方根誤差(root mean square error of cross validation,RMSECV)為0.022,預測均方根誤差(root mean square error of prediction,RMSEP)為0.030 1,全譜建立的PLS模型相關系數為0.778 5,RMSECV為0.066 6,RMSEP為0.076 8。結果表明,基于SAA優化特征譜區,建立灰分定量模型是可行的,且準確度與穩健性明顯優于全譜定量分析模型。
關鍵詞:模擬退火算法;偏最小二乘法;面粉;近紅外光譜;定量分析
竇穎, 孫曉榮, 劉翠玲, 等. 基于模擬退火優化波長的面粉品質檢測[J]. 食品科學, 2016, 37(12): 208-211. DOI:10.7506/ spkx1002-6630-201612037. http://www.spkx.net.cn
DOU Ying, SUN Xiaorong, LIU Cuiling, et al. Near-infrared spectroscopic detection of wheat flour quality using wavelength optimization based on simulated annealing algorithm (SAA)[J]. Food Science, 2016, 37(12): 208-211. (in Chinese with English abstract) DOI:10.7506/spkx1002-6630-201612037. http://www.spkx.net.cn
面粉是我們飲食中不可或缺的食材。灰分是指面粉經高溫灼燒后剩余的礦物質元素,是我國鑒別面粉精度或分等定級的重要指標。其含量會影響面制品的色澤與口感等[1]。目前,灰分的測量方法普遍采用國標法,但由于該方法耗時耗力,越來越多的研究人員借助近紅外光譜并結合化學計量學方法,建立定量模型檢測灰分含量[2]。偏最小二乘(partial least squares,PLS)法是回歸預測常用的建模方法[3],但當特征量較多時,過多的干擾因素被考慮到模型中導致模型的準確性和穩健度下降,因此需篩選出具有代表性的波長點建模。常用的優化方法[4-6]有相關系數法、蒙特卡羅法等。隨機優化方法有遺傳算法[7-8]、蟻群算法[9-10]、模擬退火算法(simulated annealing algorithm,SAA)[11-13]等。
SAA是Kirkpatrick等[14]在1983年提出的,其基本思想來源于金屬的退火原理。將材料加熱,材料能量變大,原子離開原始位置隨機在其他位置移動,再冷卻材料使其能量減少,如果冷卻速度足夠慢,系統會忽略局部穩定構造,最后在常溫時達到全局穩定狀態,即基態。SAA較其他優化算法有如下特點:初始點選擇的不依賴性,對于隨機搜索算法這是十分重要的優勢,避免了因初始點選擇不當造成的優化失敗。以一定概率接受劣解,保證算法不陷入局部最優且增加了尋優靈活性。隱含并行性,SAA采用并行策略優化提高了收斂速度和解的質量,善于搜索復雜區域[15-17]。
SAA在很多優化問題上都有應用[18-23],但應用于光譜技術的研究較少。石吉勇等[24]基于SAA優化食醋總酸含量近紅外光譜模型,優選出17 個總酸特征波數點,其預測集相關系數為0.921,優于全光譜和區間PLS對應的預測效果。Balabin等[25]對比16種優化譜區算法對生物柴油特征的提取結果,得出SAA是優化效果明顯的算法之一。
因此,在此基礎上研究提出基于SAA優化近紅外光譜波長,并結合PLS建立面粉中灰分的定量分析模型,達到優化模型的目的。
1.1材料
實驗樣本均采自古船面粉廠不同批次、不同種類的面粉產品,包括精制雪花粉、按廠商要求配粉、富強粉、餃子粉、面包粉、高筋特精粉、烤鴨面餅專用粉、軍供粉、麥芯粉、饅頭專用粉等種類共計126 個面粉樣本,并采集近紅外光譜。面粉樣本的灰分真實值取自古船面粉廠國標法測量所得的數據。
1.2儀器與設備
VERTEX 70傅里葉紅外光譜儀德國Brüker公司。
1.3實驗原理及流程
近紅外光譜的2 074 個波數點相當于退火材料的2 074 個微觀狀態。選定目標函數f即材料的內能E,確定優化問題的初始溫度T0,隨機選擇一組波數作為模擬退火的初始解,由初始溫度和初始解開始迭代。迭代過程為:產生新的解,然后計算其目標函數差,如果新的目標函數優于前一解的目標函數,則算法接受并更新最優解。否則,由接受準則判斷是否接受這個解,滿足則進行當前解和目標函數的迭代,否則舍棄新解。隨著迭代的過程,逐步衰減溫度值T。當溫度為Tx時所經歷的迭代過程為一個馬爾科夫鏈,次數為馬爾科夫鏈的長度Lk。算法設置了記憶器,用于記憶當前迭代過程中遇到的最優解和最優目標函數值,防止問題具有多個極值時,算法難以保證最優解為整個搜索過程中曾經得到的最優解。最終,算法終止時得出的歷史最優解,即為優選的波數點。
1.3.1接受準則
接受準則保證了SAA在一定程度上吸收劣解,是實現全局搜索的關鍵因素。經實驗表明接受準則的具體形式對SAA沒有實質性的影響,所以通常選用Metropolis準則作為接受準則函數。
由解i到解j的接受概率按函數(1)確定:

式中:f(i)、f(j)分別為解i、j的目標函數;t為溫度/℃。
依據接受準則可以看出,目標函數越小越好。
1.3.2目標函數
實驗選取交互驗證均方根誤差(root mean square error of cross validation,RMSECV)作為SAA的目標函數。RMSECV是評價校正模型的重要參數,其越接近0表示校正模型預測結果越好,按公式(2)計算RMSECV:

式中:yi,actual為第i個樣品參考方法的測定值;yi,predicted為校正集交互驗證過程中第i個樣品的測定值;n為校正集的樣品數。
1.3.3冷卻進度表
冷卻進度表是SAA控制進程的參數總稱,包括初始溫度T0、衰減因子α、馬爾科夫鏈長度Lk以及終止條件S。理論上初始溫度T0遵循足夠大原則才能保證算法能夠進行大范圍搜索,但實際情況需考慮T0過大會降低SAA優化計算的時間。降溫策略選擇指數降溫Tk+1=Tk×α。衰減因子α越小所需的馬爾科夫鏈越長,因此通常選取小衰減量來避免。終止條件S為溫度降到一個接近0的數值。
1.4數據處理
實驗中近紅外光譜轉換為數據點格式以及單一PLS回歸預測由OPUS軟件完成,SAA結合PLS由Matlab 2013a軟件完成。
2.1灰分定量模型的建立
126份面粉樣本光譜中,校正集樣本92 份,檢驗集樣本34 份。為保證面粉樣本的近紅外光譜在采集過程中不受環境中二氧化碳和水蒸氣的影響,實驗每隔0.5 h采集一次背景光譜,并保持室內恒溫26 ℃。光譜儀器掃描次數為32 次,分辨率為8 cm-1,如圖1所示。

圖1 面粉樣本近紅外光譜圖Fig. 1 Near infrared spectra of samples
建立關于灰分含量的全譜PLS定量校正模型,并對檢驗集樣本進行預測,如圖2所示。

圖2 灰分的PLS定量模型(A)和校正模型(B)檢驗集模型Fig. 2 PLS quantitative models for predicting ash content
全譜PLS定量模型實驗結果相關系數R2為0.778 5,RMSECV為0.066 6,預測均方根誤差(root mean square error of prediction,RMSEP)為0.076 8。取全譜波數建立PLS定量模型,實驗結果較差,預測精度不高,且模型對樣本的包容性較差。
2.2冷卻進度表參數設置
由于冷卻進度表參數的合理設置是保證SAA尋優的關鍵,實驗針對其中的初始溫度以及衰減因子2 個重要參數進行了不同取值的對比分析,探索適合面粉灰分SAAPLS定量模型的最優設置。SAA是一種隨機優化方法,因此在每一組參數建立模型時,均優化5 次后取平均值作為該模型的實驗結果。

圖3 RMSECV與RMSEP隨初始溫度(A)和衰減因子(B)變化曲線Fig. 3 Curves showing changes in RMSECV and RMSEP with initial temperature and attenuation factor
從圖3A可以看出,模型的RMSECV和RMSEP隨初始溫度的升高逐漸減小,RMSECV在400、2 000 ℃和10 000 ℃數值較小,RMSEP在2 000 ℃數值較小。主要原因在于足夠大的初始溫度可以保證模型搜索全面,但隨著溫度的升高,優化速度明顯降低,因此綜合以上因素,實驗選取400 ℃作為初始溫度。從圖3B可以看出,RMSECV 和RMSEP在整體趨勢上隨衰減因子增高而降低,但是在0.97之后數值有所回升,RMSECV和RMSEP均在衰減因子α為0.97時數值最小,因此實驗選取衰減因子α=0.97作為本實驗衰減因子。
冷卻進度表的合理選擇是保證算法在有限時間內搜索到問題最優解的關鍵,通過實驗以及參考相關文獻,研究最終選擇的冷卻進度表參數為T0=400 ℃、α=0.97、Lk=200、S=0.000 001 ℃。
2.3基于模擬退火算法優化模型的建立


圖4 灰分的SAA-PLS定量模型(A)和校正模型(B)檢驗集模型Fig. 4 SAA-PLS quantitative models for predicting ash content
建立關于灰分含量的基于模擬退火譜區優化結合PLS定量分析模型,并對檢驗集樣本進行預測。面粉樣本近紅外光譜共2 074 個波數點經SAA的迭代篩選,共挑選出70 個特征波數點,相對全譜特征波數點大大減少,將其所對應的化學值建立PLS校正模型,如圖4所示。
SAA-PLS模型實驗結果相關系數R2為0.976 0,RMSECV為0.022,RMSEP為0.030 1。SAA-PLS模型不僅降低了模型計算的復雜度,且模型的各項參數均有所提高,預測精度明顯優于全譜PLS模型,且SAA-PLS模型對樣本的包容性也大大提高,全譜PLS模型中的異常點均被校正。SAA-PLS模型的檢驗集樣本誤差如表1所示。

表1 檢驗集樣本真實值與預測值誤差Table 1 Errors between actual and predicted values of test samples
12 000~9 000 cm-1區域干擾信息較多,容易影響模型預測精度,因此實驗還建立了波數為9 000~4 000 cm-1的灰分PLS定量模型及SAA-PLS定量模型與之對比,如表2所示。在9 000~4 000 cm-1波數范圍內建模,檢驗集預測效果明顯好于全譜模型,但SAA-PLS模型變化不是很大,說明SAA優化譜區已經趨于平衡狀態。

表2 不同建模區間的實驗結果對比Table 2 Comparison of parameters of models established in different wave number ranges using different algorithms
面粉中灰分含量是國家檢驗面粉品質的重要指標之一,由于全譜建立關于面粉中灰分含量的PLS定量模型預測精度差,穩健性低,研究提出SAA函數結合PLS建立灰分定量模型。通過反復實驗,研究確定了適合灰分的模擬退火冷卻進度表參數分別為T0=400 ℃、α=0.97、Lk=200、 S=0.000 001 ℃,算法優化篩選出70 個最優特征波數點,所建定量模型相關系數R2達到0.976 0,RMSECV為0.022,RMSEP為0.030 1,實驗結果明顯優于全譜PLS定量模型。同時,實驗挑選灰分含量范圍跨度大,SAA-PLS模型對樣本的包容性也優于全譜PLS模型。SAA作為一個隨機全局搜索優化算法,在光譜分析技術方面應用還不多,實驗為研究人員提供了一定的可行性依據。
參考文獻:
[1] 李樹高. 面粉灰分含量對面制品的影響[J]. 糧食與食品工業, 2008, 15(3): 11-18. DOI:10.3969/j.issn.1672-5026.2008.05.003.
[2] 劉翠玲, 吳勝男, 孫曉榮, 等. 基于近紅外光譜的面粉灰分含量快速檢測方法[J]. 農機化研究, 2013, 35(4): 144-147. DOI:10.3969/ j.issn.1003-188X.2013.04.034.
[3] 陸洪濤. 偏最小二乘回歸數學模型及其算法研究[D]. 北京: 華北電力大學, 2014.
[4] 褚小立, 袁洪福, 陸婉珍. 近紅外分析中光譜預處理及波長選擇方法進展與應用[J]. 化學進展, 2004, 16(4): 528-542. DOI:10.3321/ j.issn:1005-281X.2004.04.008.
[5] 褚小立. 化學計量學方法與分子光譜分析技術[M]. 北京: 化學工業出版社, 2011: 83-84.
[6] ZOU Xiaobo, ZHAO Jiewen. Variables selection methods in nearinfrared spectroscopy[J]. Analytica Chimica Acta, 2010, 667(1/2): 14-23. DOI:10.1016/j.aca.2010.03.048.
[7] 別軍象, 趙宇峰. 遺傳算法在肉類近紅外光譜分析中波長選擇的應用[J]. 計算機與數字工程, 2014, 42(1): 6-8. DOI:10.3969/ j.issn.1672-9722.2014.01.002.
[8] 陳紅艷, 趙庚星, 張曉輝, 等. 基于遺傳算法結合偏最小二乘的潮土堿解氮高光譜特征及含量估測[J]. 中國農學通報, 2015, 31(2): 209-214. DOI:10.11924/j.issn.1000-6850.2014-0934.
[9] 郭亮, 吉海彥. 蟻群算法在近紅外光譜定量分析中的應用研究[J].光譜學與光譜分析, 2007, 27(9): 1703-1705.
[10] 陳鑫, 劉飛. 蟻群算法在蘋果糖度近紅外光譜分析波長選擇中的應用[J]. 分析實驗室, 2013, 32(10): 50-54.
[11] 石吉勇, 殷曉平, 鄒小波, 等. 基于模擬退火波長優化的草莓堅實度近紅外光譜檢測[J]. 農業機械學報, 2010, 41(9): 99-103. DOI:10.3969/j.issn.1000-1298.2010.09.020.
[12] CHEN Xiaojing, LEI Xinxiang. Application of a hybrid variable selection method for determination of carbohydrate content in soy milk powder using visible and near infrared spectroscopy[J]. Journal of Agricultural and Food Chemistry, 2009, 57(2): 334-340. DOI:10.1021/ jf8025887.
[13] 谷筱玉, 徐可欣, 汪曣. 波長選擇算法在近紅外光譜法中藥有效成分測量中的應用[J]. 光譜學與光譜分析, 2006, 26(9): 1618-1620. DOI:10.3321/j.issn:1000-0593.2006.09.013.
[14] KIRKPATRICK S, GELATT J C D, BRUCKNER P. Complexity of machine scheduling problems[J]. Annals of Discrete Mathematics, 1977, 7: 343-362.
[15] 李香平, 張紅陽. 模擬退火算法原理及改進[J]. 軟件導刊, 2008, 7(4): 47-48.
[16] 龐峰. 模擬退火算法的原理及算法在優化問題上的應用[D]. 長春:吉林大學, 2006.
[17] 蔣龍聰, 劉江平. 模擬退火算法及其改進[J]. 工程地球物理學報, 2007, 4(2): 135-140. DOI:10.3969/j.issn.1672-7940.2007.02.013.
[18] 尤麗華, 吳靜靜, 王瑤, 等. 基于模擬退火優化BP神經網絡的PH值預測[J]. 傳感技術學報, 2014, 27(12): 1643-1648. DOI:10.3969/ j.issn.1004-1699.2014.12.011.
[19] 謝榮斌, 張霖, 鄢小虎. 模擬退火優化SVM參數的變壓器故障診斷[J]. 計算機測量與控制, 2015, 23(5): 1495-1498. DOI:10.16526/ j.cnki.11-4762/tp.2015.05.017.
[20] 衷路生, 陳立勇, 龔錦紅. 基于耦合模擬退火優化最小二乘支持向量機的車輪踏面磨耗量預測[J]. 計算機應用研究, 2015, 32(2): 397-402. DOI:10.3969/j.issn.1001-3695.2015.02.018.
[21] 韓宗偉, 黃魏, 羅云, 等. 基于路網的土壤采樣布局優化: 模擬退火神經網絡算法[J]. 應用生態學報, 2015, 26(3): 891-900.
[22] 史偉民, 方俊, 楊亮亮. 基于模擬退火蟻群混合算法的裁床樣片切割路徑優化[J]. 浙江理工大學學報, 2015, 33(2): 214-218.
[23] SHI J Y, ZOU X B, ZHAO J W, et al. Selection of wavelength for strawberry NIR spectroscopy based on BiPLS combined with SAA[J]. Journal of Infrared and Millimeter Waves, 2011, 30(5): 458-462.
[24] 石吉勇, 鄒小波, 王開亮, 等. 模擬退火算法用于食醋總酸含量近紅外光譜模型的波數點優選[J]. 食品科學, 2011, 32(10): 120-123.
[25] BALABIN R M, SMIMOV S V. Variable selection in near-infrared spectroscopy: benchmarking of feature selection methods on biodiesel data[J]. Analytica Chimica Acta, 2011, 692(1/2): 63-72. DOI:10.1016/ j.aca.2011.03.006.
Near-Infrared Spectroscopic Detection of Wheat Flour Quality Using Wavelength Optimization Based on Simulated Annealing Algorithm (SAA)
DOU Ying, SUN Xiaorong*, LIU Cuiling, XIAO Shuang
(Beijing Key Laboratory of Big Data Technology for Food Safety, School of Computer and Information Engineering, Beijing Technology and Business University, Beijing100048, China)
Abstract:Simulated annealing algorithm (SAA) is a random search algorithm for global optimization. In order to improve the accuracy and robustness of near-infrared spectroscopy (NIR) in detecting wheat flour quality, this paper proposed a quantitative prediction model using global optimization based on SAA combined with partial least squares (PLS). In this algorithm, a comparative analysis was made in different parameter settings of cooling schedule. According to the ash content gradients in flour, the NIR spectra of 126 samples were selected randomly to establish an SAA-PLS model. Results showed that 70 wave numbers were picked out of 2 074 wave numbers using SAA. The quantitative model established using partial least squares exhibited a correlation coefficient (CC) of 0.976 0, a root mean square error of cross validation (RMSECV) of 0.022, and a root mean square error of prediction (RMSEP) of 0.030 1, while the CC, RMSECV and RMSEP values of the PLS model based on the full wave spectra was 0.778 5, 0.066 6 and 0.076 8, respectively. These results indicated that it was feasible to establish a quantitative model for predicting ash content using wavelength optimization based on SAA, which was superior in accuracy and robustness to the full-spectrum model.
Key words:simulated annealing algorithm; partial least squares method; flour; near-infrared spectroscopy; quantitative analysis
收稿日期:2015-09-14
基金項目:北京市教委科研計劃重點項目(KZ201310011012);北京市教委科技創新平臺建設項目(PXM_2012_014213_000023);北京市自然科學基金項目(4142012);北京市優秀人才資助項目(2012D005003000007)
作者簡介:竇穎(1990—),女,碩士研究生,研究方向為控制理論與控制工程。E-mail:m13146816314_1@163.com
*通信作者:孫曉榮(1976—),女,副教授,博士,研究方向為智能測量技術與數據處理、系統建模與仿真方法研究、智能控制方法。E-mail:sxrchy@sohu.com
DOI:10.7506/spkx1002-6630-201612037
中圖分類號:S03
文獻標志碼:A
文章編號:1002-6630(2016)12-0208-04引文格式: